自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

我走路带风

成功唯有积累,没有奇迹

原创 Webscraper爬取使用总结(持续更新)

1.使用link可以使得爬取到的内容多获取两列,一列是该指定link处的文字text,一列是跳转的链接的url; 2.使用link爬取多级页面时,如果想获得多级页面下的内容,不管这个页面是在当页打开,或是在新的页面打开,都可以在创建的类型为link的结构下,再对子页面的元素进行抓取; 3.Te...

2018-08-30 10:08:52

阅读数 10664

评论数 15

原创 使用webscraper中的CouchDB使爬取到的数据有序

使用webscraper时,如果采用local storage是无序的方式,而CouchDB采用的是有序的方式。 1.安装 将CouchDB安装完成后,通过win+R打开运行窗口, 运行打开服务的命令services.msc,观察couchDB是否正常启动; 2.配置 通过在浏览器地址栏...

2018-08-30 09:55:21

阅读数 2282

评论数 2

原创 爬虫的Http报头信息总结

常见的请求(Request)报头: 请求报头的作用是允许客户端向服务器端传递请求的附加信息以及客户端自身的信息; Accept:用于指定客户端接受哪些类型的信息; Accept-Charset:用于指定客户端接受的字符集; Accept-Encoding:用于指定可接受的内容编码; Ac...

2018-08-27 23:21:49

阅读数 229

评论数 0

原创 pandas.read_csv()中文名字的csv文件时出现OSError:Initializing from file failed问题

出现了这个错误,上网查了一下有人说改编码encoding,有人说改engine,但都没能解决这个问题。 看了一下错误原因和pandas的源码,发现调用pandas的read_csv()方法时,默认使用C engine作为parser engine,而当文件名中含有中文的时候,用C engin...

2018-08-27 14:29:16

阅读数 355

评论数 0

原创 ImportError: Install xlrd >= 0.9.0 for Excel support错误的解决

在执行pandas读取excel的操作时,出现了问题,代码如下: data = pd.read_excel(discfile)   ImportError: Install xlrd >= 0.9.0 for Excel support 解决办法: 需要pip安装xlrd...

2018-08-24 16:04:18

阅读数 10461

评论数 0

原创 Python时序分析风语咒票房预测

先占个坑,晚上总结必发!

2018-08-24 11:01:19

阅读数 346

评论数 0

原创 经典机器学习算法优缺点

存在即合理,欢迎补充,拍砖 KNN 优点 简单好用,容易理解,精度高,理论成熟,既可以用来做分类也可以用来做回归; 可用于数值型和离散型数据; 训练时间复杂度为O(n),无数据输入假定; 对异常值不敏感。 缺点 计算复杂性高;空间复杂性高; 样本不平衡问题; 朴素贝叶斯 优点 生成式...

2018-08-24 08:55:52

阅读数 652

评论数 0

原创 Python爬虫爬取猫眼电影风语咒影评评论信息

风语咒作为扛起国漫崛起的又一国漫之作,爬取风语咒猫眼的电影评论数据,以便对其评论做之后的数据分析。 此次demo的流程图如下: 一.找到猫眼电影中风语咒影评得json数据: l 找出url后,往下滚动后,发现其并无评论页面得接口,这时通过f12启动手机版得调试模式,通过手机端得界面寻找...

2018-08-23 16:01:01

阅读数 2473

评论数 1

原创 Python文件操作生成csv及其他存储类型

通常Pandas用习惯后,比较喜欢用.to_csv的操作直接来转成csv文件,但如果是对于列表,则可以使用文件操作生成写入csv文件:   #打开文件 fid0=open('baseline.csv','w') #写入列名 fid0.write(&quo...

2018-08-21 18:50:01

阅读数 277

评论数 0

原创 Pandas,numpy数据类型之间的互换(持续更新)

1.将Pandas类型转换为numpy类型,通过.values来转换: np = pd.values   2.将numpy类型转换为list类型,通过.tolist()方法转换: list = np.tolist()  

2018-08-21 11:43:29

阅读数 1186

评论数 0

原创 情感分析背后的朴素贝叶斯及实现基于评论语料库的影评情感分析(附代码)

一.情感分析的介绍       一句话概括情感分析:判断出一句评价/点评/影评的正/负倾向性;       情感分析是一个二分类的问题,一种是可以直接判断正负,一种是可以判断情感偏向正负性的一个打分; 二,词袋模型(向量空间模型) 2.1情感分析的流程    中文分词处理,停用词的去除,...

2018-08-21 00:58:31

阅读数 3780

评论数 1

原创 a bytes-like object is required,not 'str'

提示这个错误,意思是说:需要类型是str类型,而不能是bytes类型,解决办法是将byte类型转化为str类型 # bytes object b = b"example" # str object s = "example" # s...

2018-08-20 17:58:12

阅读数 298

评论数 0

原创 Pandas中使用to_csv函数常见错误总结(持续更新)

1.输出的utf8数据用Excel打开是乱码: 原来的操作是直接to_csv: train.to_csv('train_test.csv')  后来换了参数,使用: train.to_csv('train_test.csv',encoding=...

2018-08-20 10:53:00

阅读数 4328

评论数 0

原创 随机森林优化预测氪金玩家开源

        有道是最终结果的好坏,特征工程占大头,而模型和算法只占一小部分。但也需好的模型来进行优化,不敢妄称开源,代码写的还不规范,有问题一起交流,欢迎拍砖! # 导入库文件 import pandas as pd import numpy as np from pandas impor...

2018-08-20 01:13:09

阅读数 192

评论数 1

原创 Pandas为某列赋值操作

Pandas新添加一列A,为A列赋值,值为B列的value:   1.若两列的行数相同,则可以直接进行赋值:  test_X['multiple'] = test['multiple']   2.若两列的行数不同,则可以采用左连接的方式进行赋值: ...

2018-08-19 23:33:24

阅读数 7509

评论数 0

原创 在调用sklearn fit时出现 Unknown label type: 'unknown'错误

在sklearn 模型训练是出现如下报错:‘ValueError: Unknown label type: ‘unknown’’该怎么解决? 意思是类型不匹配,需要将字符串数组转换为数值型; 以fit为例:train_y后加上astype(‘int’)即可 gbdt.fit(train_x,...

2018-08-16 15:09:36

阅读数 2363

评论数 2

原创 Pandas消除空值

       今天遇到一个需求如下:需要删除读取的csv的文件中,某一列为空的行,想到Dataframe中有dropna方法来删除空值,于是查文档操作如下:         test1000 = test1000.dropna(subset=['prediction_pay_pri...

2018-08-16 14:09:06

阅读数 1395

评论数 0

原创 Python pandas中的cumsum和cumprod的用法及实际用途

       累加cumsum和累乘cumprod主要是用来看数据的变化趋势.       累加是通过流量得到存量,比如每天销售量的多少,得到今年的销售量总量;       累乘是通过变化率来得到存量,比如有每天的数据变动趋势,通过累乘来得到当前的数据;       累加的用法:      ...

2018-08-15 16:56:03

阅读数 7799

评论数 0

原创 Python 数据分析Matplotlib入门

1.简单绘图     让图像显示出来的方法:     方法一:     plt.plot(a,b)     plt.show()     方法二:     %matplotlib inline     plt.plot(a, b)    # %timeit 表示代码执行的时间   ...

2018-08-15 16:43:00

阅读数 140

评论数 0

原创 Python 数据分析Pandas进阶

一.Series和DataFrame的简单数学运算       1.Series的运算:        有值的则相加,没值对照的相加的为nan;       2.Dataframe的运算:       dataframe之间的相加运算和Series一样,不同的是sum运算: df3 =...

2018-08-14 21:01:36

阅读数 511

评论数 0

原创 python中的可哈希和不可改变性

元素为不可变的数据类型,则其为可哈希 1.可哈希(hashable)和不可改变性(immutable) 如果一个对象在自己的生命周期中有一哈希值(hash value)是不可改变的,那么它就是可哈希的(hashable)的,因为这些数据结构内置了哈希值,每个可哈希的对象都内置了__hash__...

2018-08-13 16:37:29

阅读数 653

评论数 0

原创 Python 数据分析Pandas入门

     Pandas是数据科学领域非常重要的工具,它主要可以做数据分析的处理,Pandas主要有两个主要的数据结构,一个是Series,一个是Dataframe.   一.Series创建:    1.通过py list来创建series:      s1 = pd.Series([1,...

2018-08-13 16:27:07

阅读数 485

评论数 2

原创 Python字典操作及课后练习

''' dict,唯一一个映射数据类型 数据类型划分:可变数据类型,不可变数据类型 不可变数据类型:元组,bool int str(对str的任何改变都是形成了新的str,对原来的str没有改变) 可变数据类型:list,dict,set dict key 必须是不...

2018-08-10 23:42:56

阅读数 320

评论数 0

原创 用Python实现将一张图片分成9宫格

经常看到朋友圈或者空间里有朋友发布照片时,将朋友圈的照片切分为九宫格,参考了一些大神的博客资料,现整理如下; 将图片分拆成九宫格的思路: 读取图片->填充图片为正方形(fill_image函数)->将图片切分为9张(cut_image函数)->保存图片...

2018-08-10 13:22:00

阅读数 3843

评论数 1

原创 Python 数据分析Numpy入门

# 5个常用的py库:numpy,pandas,Scipy(实现了线性代数,傅里叶变换,信号和图像处理),matplotlib,skitlearn # 矩阵:矩阵的数组,即二维数组,其中向量和标量都是矩阵的特例 # 向量:是指1*n或者n*1的矩阵 # 标量:1*1的矩阵 # 数组:n维的数组,...

2018-08-10 10:44:00

阅读数 144

评论数 0

原创 Python列表及元组操作及练习

  列表操作: 增: append,insert,extend(可迭代的去添加) 删: 按元素去删除:remove 按索引去删:pop去除(有返回值), del删除(彻底删除),clear清空列表 改: 按索引去改(直接指定值进行修改);按切片去改(可迭代的去修改,添加个数不定...

2018-08-09 14:00:00

阅读数 1090

评论数 0

原创 Python中字符串操作课后练习

# 1.content = input("请输入内容:") # 题目:用户输入:5+9或5+ 9 或5 + 9,然后进行分割再进行计算 # 方法一: content = input("请输入内容:") print(content) print(type(c...

2018-08-08 21:21:09

阅读数 151

评论数 0

原创 ascii码字节数目总结

ascii 英文字母,特殊字符,数字:一个字节,8位; 万国码Unicode:unicode 最开始16位两个字节,中文不够32位 4个字节。 占用资源多。 升级:utf-8 utf-16 utf-32 utf-8:最少用一个字节,8位表示一个英文。                    欧洲1...

2018-08-08 13:50:57

阅读数 512

评论数 0

原创 Python实现探探人脸识别自动右滑1.0版本(附代码)

   探探人脸识别自动右滑1.0版本      相信大家对探探都不陌生,但每天右滑右滑的,真的觉得很是浪费时间,但里面的妹纸比较漂亮却又不舍得不滑,万一能约到呢。。。于是自己起初就用adb的方法来无限右滑,但后来发现右滑匹配的女孩不是自己喜欢的,后就加了腾讯的接口,实现了探探右滑操作。    ...

2018-08-08 11:29:27

阅读数 2562

评论数 7

原创 Python实现--使用微信定时每天和女友发送定制消息(附代码教程)

       但凡有些事情重复时,我就在想怎么可以用程序来自动化。这里想分享如何每天给女友定时微信发送”晚安“,如果只是晚安,就略显单调,于是爬取金山词霸每日一句,英文和翻译,借此设定定时器进行发送。        准备: pip install wxpy pip install reque...

2018-08-07 21:36:06

阅读数 15467

评论数 28

原创 sklearn决策树回归使用预测氪金玩家(网格搜索)

使用sklearn的DecisionTreeRegressor解决分类问题实例。 数据集描述        数据集存放在一个csv的文件中,其中有108个特征,1列目标变量。其中特征中有一个特征是玩家id,以及玩家的注册时间,将这两个无关变量剔除掉。剩余106个特征,特征变量的类型为数字。 ...

2018-08-07 21:30:33

阅读数 424

评论数 2

提示
确定要删除当前文章?
取消 删除