- 博客(16)
- 收藏
- 关注
原创 pyspark版GBDT+LR实现
主要是由于spark的python没有获取树节点的接口,只有基本的输出信息,需要手动建树。github是https://github.com/lhtlht/gbdt_lr后续再做详细的说明。
2019-11-19 23:10:35 2046 1
原创 Hadoop2.7.4详细配置与相关问题讲解
安装前准备node安装(这里使用VM12部署4个centos7.0系统,伪分布式部署)jdk安装 (我这里使用的是jdk1.8)ssh免密码登录参考我的上一篇Hadoop1.2.1详细配置与相关问题讲解 有详细说明,这里就不再累赘。环境说明主机hosts:node1 192.168.132.138 node2 192.168.132.139node3 192
2017-08-27 11:42:33 3671 2
原创 Hadoop1.2.1详细配置与相关问题讲解
新手,折腾了一天,终于把HDFS配置好了,下面讲解所有流程以及我遇到的一些问题的解决方法。配置环境准备hadoop-1.2.1 --> HDFS伪分布式配置--> 1个NameNode节点,2个DateNode节点,1个SeconaryNode节点部署在3个虚拟机上系统--> VMWARE CentOS7.0(node1、node2、node3)系统准备
2017-08-23 12:16:28 1712 1
原创 爬取QQ音乐2W歌单和50W首歌曲
主要运用了Python中的Requests包和json包获取内容,写入到Mongodb数据库并保存,pandas用于导出数据,代码详细我最后会给出github接口分析并爬取歌单id我发现html源码并没有我想要的数据,所以分析了Ajax请求,得到了我想要的数据。在Chrome按F12(或Fn+F12)打开开发者工具,在Network中选择JS,并且刷新页面,找到关于歌单的渲染连接。
2017-08-16 09:32:37 10706 3
原创 支持向量机的自我理解
做一个支持向量机的简单逻辑分解合成吧,给初学支持向量机的同学理一下我的思路。做了个简单的思维导图,把一个简单逻辑先粗糙罗列出来,再慢慢分解,这样(至少是对于我来说)可以更清楚一点,不然到最后看了一个又一个的算法,都不知道这些算法解决的这些问题究竟有什么用。
2017-07-28 00:07:29 320
原创 决策树(decision tree)的自我理解 (下) 关于剪枝和连续值缺失值处理
对剪枝的粗浅理解剪枝分预剪枝和后剪枝,顾名思义,预剪枝就是在树还没完成之前,预先剪去树的部分分支,后剪枝就是在整棵树完成了之后对树剪去部分分支,从而完成了对树的精简操作,避免了因属性太多而造成的过拟合。预剪枝(prepruning):在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分,并将当前结点标记为叶节点。后剪枝(post-pr
2017-07-06 19:57:47 3722
原创 决策树(decision tree)的自我理解 (上)
最近在看周志华的《机器学习》,刚好看完决策树这一章,因此结合网上的一些参考资料写一下自己的理解。何为决策树?决策树是一种常见机器学习方法中的一种分类器。它通过训练数据构建一种类似于流程图的树结构,其中每个内部结点表示在一个属性上的测试对未知数据进行分类,每个分支代表一个属性输出,每个树叶结点代表类或类分布。决策树包括:根结点、若干个内部结点、若干个叶节点(即目标分类节点)。如以下数
2017-07-06 09:22:00 4978 1
原创 KNN(K近邻)算法的简单入门
机器学习实战(第二章:k-近邻算法)今天学习了第二章,在此就我理解做一下简单的总结,算是加深我的理解和用我自己的语言描述出这个算法吧。基于向量空间的欧几里得距离的计算。简单点来说就是 在一个具有大量样本集中,每一个实例都具有3个或以上的特征属性,其中有一个属性必然是分类属性,其余属性为数值型属性(即使是标称型属性,也可以通过 某些方法转变过来),每一个实例都是由属性特征
2017-04-18 23:05:59 8591
原创 探究下疯狂动物城Zootopia为何如此高分的原因
探究下疯狂动物城Zootopia为何如此高分的原因时隔差不多一年,疯狂动物城这部动画片算是已经取得圆满结果,在豆瓣和IMDb上都取得不错的分数,分别为9.2分(5分制,共有)和8.1分(10分制),成了豆瓣电影评分版版首。究竟如此高分的动画电影,人们为何给出如此高分?背后的因素究竟有多少?对于两个著名平台豆瓣和IMDb又有什么不同?通过本文解读:●群众以
2017-02-13 22:17:09 1089
原创 如何解决pandas.read_csv()乱码问题
pandas.read_csv()遇到读进来乱码问题1.设置encoding='gbk'或者encoding='utf-8'。pandas.read_csv('data.csv',encoding='gbk')2.如果设置encoding直接报错的话解决方法是:用记事本打开csv文件,另存为设置编码为utf-8,然后重新读取文件设置encoding='utf-8'就好了
2017-02-08 16:57:27 47837
原创 R语言利用wordcloud2绘制词云
本次的重点绘制词云,所以并不太重视其他分析方面的论述。本机环境:window 10R x64 3.3.0R包:tmcn:词频统计wordcloud2:绘制词云Rwordseg:分词由于tmcn和Rwordseg包在R3.3.0的版本中没有可以直接在线下载安装,所以需要去搜索并且本地安装附Rwordseg和tmcn的下载链接,注意安装Rwordseg前需要配置ja
2017-02-05 12:40:34 18147 10
原创 window下python-xgboost的安装
虽说xgboost的 Python包在windows环境下使用MicrosoftVisual Studio安装的功能被陈天奇大神删掉了,但是我觉得还是有很多对window环境比较熟悉,特别是刚学习xgboost的新手。参考http://www.th7.cn/system/win/201603/157092.shtmlmingw-w64安装git安装Cygwin安装......一系列的安
2017-01-10 10:15:58 4216 4
原创 python中尝试df.to_excel的时候'utf8' codec can't decode byte 0xb8 in position 0: invalid start byte
一开始我是将网页中的unicode转为utf-8后再用中文utf-8去掉中文,之后就报错了代码大概就是这么写Text = soup.select('.job_bt')[0].text.replace('\n','').encode('utf-8').lstrip('职位描述:')先encode('utf-8') 转编码为utf-8 这么做的原因是我后面要去掉里面的字符 “”职
2016-12-10 10:54:30 5483
原创 python爬取网页中javascript动态添加的内容(二)
由于直接爬取整个含有javascript的网页源代码,没办法处理分页的内容,所以这次换了种方式,就是利用Chrome浏览器工具抓取javacript文件get的网址,直接从源头入手。1.打开谷歌开发工具 F12步骤:点击Network -- XHR(也有可能在JS,多尝试几遍) -- 接着点击clear清空一下,按F5,接着点击页面中的即可看到加载的javascript文
2016-12-07 23:07:42 3043
原创 python爬取网页中javascript动态添加的内容(一)
这几天刚好在学Requests和BeautifulSoup结合做爬虫爬取网页内容,恰巧有个哥们在群里问select函数里应该怎么来填?我想也是我在学,不妨找他一起做做,如果能帮人那最好不过啦。好吧,进入正题本次爬取的网址是:https://movie.douban.com/,采用的浏览器是Chrome,内容为下图类似于电影的名字、评分,以及图片链接等等。1.首先按照传统的方法当
2016-12-01 10:23:52 30158 12
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人