感冒灵pp-CSDN博客

原创 [数据读取]1.tfRecord的生成和读取

tf1.x的tfrecord的生成和读取

2022-02-14 18:11:54 1213

原创 pyspark版GBDT+LR实现

主要是由于spark的python没有获取树节点的接口，只有基本的输出信息，需要手动建树。github是https://github.com/lhtlht/gbdt_lr后续再做详细的说明。

2019-11-19 23:10:35 2063 1

原创 Hadoop2.7.4详细配置与相关问题讲解

安装前准备node安装（这里使用VM12部署4个centos7.0系统，伪分布式部署）jdk安装（我这里使用的是jdk1.8）ssh免密码登录参考我的上一篇Hadoop1.2.1详细配置与相关问题讲解有详细说明，这里就不再累赘。环境说明主机hosts：node1 192.168.132.138 node2 192.168.132.139node3 192

2017-08-27 11:42:33 3706

原创 Hadoop1.2.1详细配置与相关问题讲解

新手，折腾了一天，终于把HDFS配置好了，下面讲解所有流程以及我遇到的一些问题的解决方法。配置环境准备hadoop-1.2.1 --> HDFS伪分布式配置--> 1个NameNode节点，2个DateNode节点，1个SeconaryNode节点部署在3个虚拟机上系统--> VMWARE CentOS7.0（node1、node2、node3）系统准备

2017-08-23 12:16:28 1730

原创爬取QQ音乐2W歌单和50W首歌曲

主要运用了Python中的Requests包和json包获取内容，写入到Mongodb数据库并保存，pandas用于导出数据，代码详细我最后会给出github接口分析并爬取歌单id我发现html源码并没有我想要的数据，所以分析了Ajax请求，得到了我想要的数据。在Chrome按F12（或Fn+F12）打开开发者工具，在Network中选择JS，并且刷新页面，找到关于歌单的渲染连接。

2017-08-16 09:32:37 11010

原创支持向量机的自我理解

做一个支持向量机的简单逻辑分解合成吧，给初学支持向量机的同学理一下我的思路。做了个简单的思维导图，把一个简单逻辑先粗糙罗列出来，再慢慢分解，这样（至少是对于我来说）可以更清楚一点，不然到最后看了一个又一个的算法，都不知道这些算法解决的这些问题究竟有什么用。

2017-07-28 00:07:29 326

原创决策树(decision tree)的自我理解（下）关于剪枝和连续值缺失值处理

对剪枝的粗浅理解剪枝分预剪枝和后剪枝，顾名思义，预剪枝就是在树还没完成之前，预先剪去树的部分分支，后剪枝就是在整棵树完成了之后对树剪去部分分支，从而完成了对树的精简操作，避免了因属性太多而造成的过拟合。预剪枝（prepruning）：在决策树生成过程中，对每个结点在划分前先进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划分，并将当前结点标记为叶节点。后剪枝（post-pr

2017-07-06 19:57:47 3737

原创决策树(decision tree)的自我理解（上）

最近在看周志华的《机器学习》，刚好看完决策树这一章，因此结合网上的一些参考资料写一下自己的理解。何为决策树？决策树是一种常见机器学习方法中的一种分类器。它通过训练数据构建一种类似于流程图的树结构，其中每个内部结点表示在一个属性上的测试对未知数据进行分类，每个分支代表一个属性输出，每个树叶结点代表类或类分布。决策树包括：根结点、若干个内部结点、若干个叶节点（即目标分类节点）。如以下数

2017-07-06 09:22:00 5021 1

原创 KNN（K近邻）算法的简单入门

机器学习实战（第二章：k-近邻算法）今天学习了第二章，在此就我理解做一下简单的总结，算是加深我的理解和用我自己的语言描述出这个算法吧。基于向量空间的欧几里得距离的计算。简单点来说就是在一个具有大量样本集中，每一个实例都具有3个或以上的特征属性，其中有一个属性必然是分类属性，其余属性为数值型属性（即使是标称型属性，也可以通过某些方法转变过来），每一个实例都是由属性特征

2017-04-18 23:05:59 8609

原创探究下疯狂动物城Zootopia为何如此高分的原因

探究下疯狂动物城Zootopia为何如此高分的原因时隔差不多一年，疯狂动物城这部动画片算是已经取得圆满结果，在豆瓣和IMDb上都取得不错的分数，分别为9.2分（5分制，共有）和8.1分（10分制），成了豆瓣电影评分版版首。究竟如此高分的动画电影，人们为何给出如此高分？背后的因素究竟有多少？对于两个著名平台豆瓣和IMDb又有什么不同？通过本文解读：●群众以

2017-02-13 22:17:09 1117

原创如何解决pandas.read_csv()乱码问题

pandas.read_csv()遇到读进来乱码问题1.设置encoding='gbk'或者encoding='utf-8'。pandas.read_csv('data.csv',encoding='gbk')2.如果设置encoding直接报错的话解决方法是：用记事本打开csv文件，另存为设置编码为utf-8，然后重新读取文件设置encoding='utf-8'就好了

2017-02-08 16:57:27 48245

原创 R语言利用wordcloud2绘制词云

本次的重点绘制词云，所以并不太重视其他分析方面的论述。本机环境：window 10R x64 3.3.0R包：tmcn：词频统计wordcloud2：绘制词云Rwordseg：分词由于tmcn和Rwordseg包在R3.3.0的版本中没有可以直接在线下载安装，所以需要去搜索并且本地安装附Rwordseg和tmcn的下载链接，注意安装Rwordseg前需要配置ja

2017-02-05 12:40:34 18190 10

原创 window下python-xgboost的安装

虽说xgboost的 Python包在windows环境下使用MicrosoftVisual Studio安装的功能被陈天奇大神删掉了，但是我觉得还是有很多对window环境比较熟悉，特别是刚学习xgboost的新手。参考http://www.th7.cn/system/win/201603/157092.shtmlmingw-w64安装git安装Cygwin安装......一系列的安

2017-01-10 10:15:58 4233 2

原创 python中尝试df.to_excel的时候'utf8' codec can't decode byte 0xb8 in position 0: invalid start byte

一开始我是将网页中的unicode转为utf-8后再用中文utf-8去掉中文，之后就报错了代码大概就是这么写Text = soup.select('.job_bt')[0].text.replace('\n','').encode('utf-8').lstrip('职位描述：')先encode('utf-8') 转编码为utf-8 这么做的原因是我后面要去掉里面的字符 “”职

2016-12-10 10:54:30 5507

原创 python爬取网页中javascript动态添加的内容（二）

由于直接爬取整个含有javascript的网页源代码，没办法处理分页的内容，所以这次换了种方式，就是利用Chrome浏览器工具抓取javacript文件get的网址，直接从源头入手。1.打开谷歌开发工具 F12步骤：点击Network -- XHR(也有可能在JS，多尝试几遍) -- 接着点击clear清空一下，按F5，接着点击页面中的即可看到加载的javascript文

2016-12-07 23:07:42 3062

原创 python爬取网页中javascript动态添加的内容（一）

这几天刚好在学Requests和BeautifulSoup结合做爬虫爬取网页内容，恰巧有个哥们在群里问select函数里应该怎么来填？我想也是我在学，不妨找他一起做做，如果能帮人那最好不过啦。好吧，进入正题本次爬取的网址是：https://movie.douban.com/，采用的浏览器是Chrome，内容为下图类似于电影的名字、评分，以及图片链接等等。1.首先按照传统的方法当

2016-12-01 10:23:52 30264 9

lht_okk的博客