python
文章平均质量分 69
感冒灵pp
这个作者很懒,什么都没留下…
展开
-
pyspark版GBDT+LR实现
主要是由于spark的python没有获取树节点的接口,只有基本的输出信息,需要手动建树。github是https://github.com/lhtlht/gbdt_lr后续再做详细的说明。原创 2019-11-19 23:10:35 · 2047 阅读 · 1 评论 -
KNN(K近邻)算法的简单入门
机器学习实战(第二章:k-近邻算法)今天学习了第二章,在此就我理解做一下简单的总结,算是加深我的理解和用我自己的语言描述出这个算法吧。基于向量空间的欧几里得距离的计算。简单点来说就是 在一个具有大量样本集中,每一个实例都具有3个或以上的特征属性,其中有一个属性必然是分类属性,其余属性为数值型属性(即使是标称型属性,也可以通过 某些方法转变过来),每一个实例都是由属性特征原创 2017-04-18 23:05:59 · 8593 阅读 · 0 评论 -
探究下疯狂动物城Zootopia为何如此高分的原因
探究下疯狂动物城Zootopia为何如此高分的原因时隔差不多一年,疯狂动物城这部动画片算是已经取得圆满结果,在豆瓣和IMDb上都取得不错的分数,分别为9.2分(5分制,共有)和8.1分(10分制),成了豆瓣电影评分版版首。究竟如此高分的动画电影,人们为何给出如此高分?背后的因素究竟有多少?对于两个著名平台豆瓣和IMDb又有什么不同?通过本文解读:●群众以原创 2017-02-13 22:17:09 · 1090 阅读 · 0 评论 -
如何解决pandas.read_csv()乱码问题
pandas.read_csv()遇到读进来乱码问题1.设置encoding='gbk'或者encoding='utf-8'。pandas.read_csv('data.csv',encoding='gbk')2.如果设置encoding直接报错的话解决方法是:用记事本打开csv文件,另存为设置编码为utf-8,然后重新读取文件设置encoding='utf-8'就好了原创 2017-02-08 16:57:27 · 47865 阅读 · 0 评论 -
window下python-xgboost的安装
虽说xgboost的 Python包在windows环境下使用MicrosoftVisual Studio安装的功能被陈天奇大神删掉了,但是我觉得还是有很多对window环境比较熟悉,特别是刚学习xgboost的新手。参考http://www.th7.cn/system/win/201603/157092.shtmlmingw-w64安装git安装Cygwin安装......一系列的安原创 2017-01-10 10:15:58 · 4217 阅读 · 4 评论 -
python中尝试df.to_excel的时候'utf8' codec can't decode byte 0xb8 in position 0: invalid start byte
一开始我是将网页中的unicode转为utf-8后再用中文utf-8去掉中文,之后就报错了代码大概就是这么写Text = soup.select('.job_bt')[0].text.replace('\n','').encode('utf-8').lstrip('职位描述:')先encode('utf-8') 转编码为utf-8 这么做的原因是我后面要去掉里面的字符 “”职原创 2016-12-10 10:54:30 · 5489 阅读 · 0 评论 -
python爬取网页中javascript动态添加的内容(二)
由于直接爬取整个含有javascript的网页源代码,没办法处理分页的内容,所以这次换了种方式,就是利用Chrome浏览器工具抓取javacript文件get的网址,直接从源头入手。1.打开谷歌开发工具 F12步骤:点击Network -- XHR(也有可能在JS,多尝试几遍) -- 接着点击clear清空一下,按F5,接着点击页面中的即可看到加载的javascript文原创 2016-12-07 23:07:42 · 3044 阅读 · 0 评论 -
python爬取网页中javascript动态添加的内容(一)
这几天刚好在学Requests和BeautifulSoup结合做爬虫爬取网页内容,恰巧有个哥们在群里问select函数里应该怎么来填?我想也是我在学,不妨找他一起做做,如果能帮人那最好不过啦。好吧,进入正题本次爬取的网址是:https://movie.douban.com/,采用的浏览器是Chrome,内容为下图类似于电影的名字、评分,以及图片链接等等。1.首先按照传统的方法当原创 2016-12-01 10:23:52 · 30171 阅读 · 12 评论