自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

lht_okk的博客

求知若饥,虚心若愚

  • 博客(16)
  • 收藏
  • 关注

原创 [数据读取]1.tfRecord的生成和读取

tf1.x的tfrecord的生成和读取

2022-02-14 18:11:54 1112

原创 pyspark版GBDT+LR实现

主要是由于spark的python没有获取树节点的接口,只有基本的输出信息,需要手动建树。github是https://github.com/lhtlht/gbdt_lr后续再做详细的说明。

2019-11-19 23:10:35 1957 1

原创 Hadoop2.7.4详细配置与相关问题讲解

安装前准备node安装(这里使用VM12部署4个centos7.0系统,伪分布式部署)jdk安装 (我这里使用的是jdk1.8)ssh免密码登录参考我的上一篇Hadoop1.2.1详细配置与相关问题讲解 有详细说明,这里就不再累赘。环境说明主机hosts:node1 192.168.132.138 node2 192.168.132.139node3 192

2017-08-27 11:42:33 3629 2

原创 Hadoop1.2.1详细配置与相关问题讲解

新手,折腾了一天,终于把HDFS配置好了,下面讲解所有流程以及我遇到的一些问题的解决方法。配置环境准备hadoop-1.2.1 --> HDFS伪分布式配置--> 1个NameNode节点,2个DateNode节点,1个SeconaryNode节点部署在3个虚拟机上系统--> VMWARE CentOS7.0(node1、node2、node3)系统准备

2017-08-23 12:16:28 1668 1

原创 爬取QQ音乐2W歌单和50W首歌曲

主要运用了Python中的Requests包和json包获取内容,写入到Mongodb数据库并保存,pandas用于导出数据,代码详细我最后会给出github接口分析并爬取歌单id我发现html源码并没有我想要的数据,所以分析了Ajax请求,得到了我想要的数据。在Chrome按F12(或Fn+F12)打开开发者工具,在Network中选择JS,并且刷新页面,找到关于歌单的渲染连接。

2017-08-16 09:32:37 10341 3

原创 支持向量机的自我理解

做一个支持向量机的简单逻辑分解合成吧,给初学支持向量机的同学理一下我的思路。做了个简单的思维导图,把一个简单逻辑先粗糙罗列出来,再慢慢分解,这样(至少是对于我来说)可以更清楚一点,不然到最后看了一个又一个的算法,都不知道这些算法解决的这些问题究竟有什么用。

2017-07-28 00:07:29 299

原创 决策树(decision tree)的自我理解 (下) 关于剪枝和连续值缺失值处理

对剪枝的粗浅理解剪枝分预剪枝和后剪枝,顾名思义,预剪枝就是在树还没完成之前,预先剪去树的部分分支,后剪枝就是在整棵树完成了之后对树剪去部分分支,从而完成了对树的精简操作,避免了因属性太多而造成的过拟合。预剪枝(prepruning):在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分,并将当前结点标记为叶节点。后剪枝(post-pr

2017-07-06 19:57:47 3657

原创 决策树(decision tree)的自我理解 (上)

最近在看周志华的《机器学习》,刚好看完决策树这一章,因此结合网上的一些参考资料写一下自己的理解。何为决策树?决策树是一种常见机器学习方法中的一种分类器。它通过训练数据构建一种类似于流程图的树结构,其中每个内部结点表示在一个属性上的测试对未知数据进行分类,每个分支代表一个属性输出,每个树叶结点代表类或类分布。决策树包括:根结点、若干个内部结点、若干个叶节点(即目标分类节点)。如以下数

2017-07-06 09:22:00 4898 1

原创 KNN(K近邻)算法的简单入门

机器学习实战(第二章:k-近邻算法)今天学习了第二章,在此就我理解做一下简单的总结,算是加深我的理解和用我自己的语言描述出这个算法吧。基于向量空间的欧几里得距离的计算。简单点来说就是 在一个具有大量样本集中,每一个实例都具有3个或以上的特征属性,其中有一个属性必然是分类属性,其余属性为数值型属性(即使是标称型属性,也可以通过 某些方法转变过来),每一个实例都是由属性特征

2017-04-18 23:05:59 8548

原创 探究下疯狂动物城Zootopia为何如此高分的原因

探究下疯狂动物城Zootopia为何如此高分的原因时隔差不多一年,疯狂动物城这部动画片算是已经取得圆满结果,在豆瓣和IMDb上都取得不错的分数,分别为9.2分(5分制,共有)和8.1分(10分制),成了豆瓣电影评分版版首。究竟如此高分的动画电影,人们为何给出如此高分?背后的因素究竟有多少?对于两个著名平台豆瓣和IMDb又有什么不同?通过本文解读:●群众以

2017-02-13 22:17:09 1009

原创 如何解决pandas.read_csv()乱码问题

pandas.read_csv()遇到读进来乱码问题1.设置encoding='gbk'或者encoding='utf-8'。pandas.read_csv('data.csv',encoding='gbk')2.如果设置encoding直接报错的话解决方法是:用记事本打开csv文件,另存为设置编码为utf-8,然后重新读取文件设置encoding='utf-8'就好了

2017-02-08 16:57:27 46832

原创 R语言利用wordcloud2绘制词云

本次的重点绘制词云,所以并不太重视其他分析方面的论述。本机环境:window 10R x64 3.3.0R包:tmcn:词频统计wordcloud2:绘制词云Rwordseg:分词由于tmcn和Rwordseg包在R3.3.0的版本中没有可以直接在线下载安装,所以需要去搜索并且本地安装附Rwordseg和tmcn的下载链接,注意安装Rwordseg前需要配置ja

2017-02-05 12:40:34 17988 10

原创 window下python-xgboost的安装

虽说xgboost的 Python包在windows环境下使用MicrosoftVisual Studio安装的功能被陈天奇大神删掉了,但是我觉得还是有很多对window环境比较熟悉,特别是刚学习xgboost的新手。参考http://www.th7.cn/system/win/201603/157092.shtmlmingw-w64安装git安装Cygwin安装......一系列的安

2017-01-10 10:15:58 4116 4

原创 python中尝试df.to_excel的时候'utf8' codec can't decode byte 0xb8 in position 0: invalid start byte

一开始我是将网页中的unicode转为utf-8后再用中文utf-8去掉中文,之后就报错了代码大概就是这么写Text = soup.select('.job_bt')[0].text.replace('\n','').encode('utf-8').lstrip('职位描述:')先encode('utf-8')  转编码为utf-8   这么做的原因是我后面要去掉里面的字符 “”职

2016-12-10 10:54:30 5421

原创 python爬取网页中javascript动态添加的内容(二)

由于直接爬取整个含有javascript的网页源代码,没办法处理分页的内容,所以这次换了种方式,就是利用Chrome浏览器工具抓取javacript文件get的网址,直接从源头入手。1.打开谷歌开发工具 F12步骤:点击Network --  XHR(也有可能在JS,多尝试几遍) -- 接着点击clear清空一下,按F5,接着点击页面中的即可看到加载的javascript文

2016-12-07 23:07:42 3001

原创 python爬取网页中javascript动态添加的内容(一)

这几天刚好在学Requests和BeautifulSoup结合做爬虫爬取网页内容,恰巧有个哥们在群里问select函数里应该怎么来填?我想也是我在学,不妨找他一起做做,如果能帮人那最好不过啦。好吧,进入正题本次爬取的网址是:https://movie.douban.com/,采用的浏览器是Chrome,内容为下图类似于电影的名字、评分,以及图片链接等等。1.首先按照传统的方法当

2016-12-01 10:23:52 29866 12

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除