自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

成功唯有积累,没有奇迹。

工棕号:diting_dapeng

  • 博客(31)
  • 资源 (15)
  • 收藏
  • 关注

原创 Webscraper爬取使用总结(持续更新)

1.使用link可以使得爬取到的内容多获取两列,一列是该指定link处的文字text,一列是跳转的链接的url;2.使用link爬取多级页面时,如果想获得多级页面下的内容,不管这个页面是在当页打开,或是在新的页面打开,都可以在创建的类型为link的结构下,再对子页面的元素进行抓取;3.Text用于文本,Table用于表格,image用于图片;4.Element用于结构体,可以在结构体内...

2018-08-30 10:08:52 21751 25

原创 使用webscraper中的CouchDB使爬取到的数据有序

使用webscraper时,如果采用local storage是无序的方式,而CouchDB采用的是有序的方式。1.安装将CouchDB安装完成后,通过win+R打开运行窗口,运行打开服务的命令services.msc,观察couchDB是否正常启动;2.配置通过在浏览器地址栏中输入:http://127.0.0.1:5984/_utils/打开页面进行创建:点...

2018-08-30 09:55:21 4913 2

原创 爬虫的Http报头信息总结

常见的请求(Request)报头:请求报头的作用是允许客户端向服务器端传递请求的附加信息以及客户端自身的信息;Accept:用于指定客户端接受哪些类型的信息;Accept-Charset:用于指定客户端接受的字符集;Accept-Encoding:用于指定可接受的内容编码;Accept-Language:用于指定一种自然语言;Authorization:用于证明客户端有权查...

2018-08-27 23:21:49 673

原创 pandas.read_csv()中文名字的csv文件时出现OSError:Initializing from file failed问题

出现了这个错误,上网查了一下有人说改编码encoding,有人说改engine,但都没能解决这个问题。看了一下错误原因和pandas的源码,发现调用pandas的read_csv()方法时,默认使用C engine作为parser engine,而当文件名中含有中文的时候,用C engine在部分情况下就会出错(在两台电脑上试了一下一台出错一台没问题,具体原因待分析)。尝试了一下在调用...

2018-08-27 14:29:16 825

原创 ImportError: Install xlrd >= 0.9.0 for Excel support错误的解决

在执行pandas读取excel的操作时,出现了问题,代码如下:data = pd.read_excel(discfile) ImportError: Install xlrd >= 0.9.0 for Excel support解决办法:需要pip安装xlrd的库,并且在当前代码中import这个xlrd这个库...

2018-08-24 16:04:18 13190

原创 Python时序分析风语咒票房预测

先占个坑,晚上总结必发!

2018-08-24 11:01:19 750

原创 经典机器学习算法优缺点

存在即合理,欢迎补充,拍砖KNN优点简单好用,容易理解,精度高,理论成熟,既可以用来做分类也可以用来做回归; 可用于数值型和离散型数据; 训练时间复杂度为O(n),无数据输入假定; 对异常值不敏感。缺点计算复杂性高;空间复杂性高; 样本不平衡问题;朴素贝叶斯优点生成式模型,通过计算概率来进行分类,可以用来处理多分类问题; 对小规模的数据表现很好,适合多分类任务,适合...

2018-08-24 08:55:52 1239

原创 Python爬虫爬取猫眼电影风语咒影评评论信息

风语咒作为扛起国漫崛起的又一国漫之作,爬取风语咒猫眼的电影评论数据,以便对其评论做之后的数据分析。此次demo的流程图如下:一.找到猫眼电影中风语咒影评得json数据:l找出url后,往下滚动后,发现其并无评论页面得接口,这时通过f12启动手机版得调试模式,通过手机端得界面寻找此电影的评论的接口位置。刷新后如下:找到位置后,点开评论区,因为其中的评论采用的是js的方式加...

2018-08-23 16:01:01 5326 1

原创 Python文件操作生成csv及其他存储类型

通常Pandas用习惯后,比较喜欢用.to_csv的操作直接来转成csv文件,但如果是对于列表,则可以使用文件操作生成写入csv文件: #打开文件fid0=open('baseline.csv','w')#写入列名fid0.write("id,class"+"\n")#对列表中的每条数据依次进行插入for item in preds:    fid0.write(str(i)+...

2018-08-21 18:50:01 594

原创 Pandas,numpy数据类型之间的互换(持续更新)

1.将Pandas类型转换为numpy类型,通过.values来转换:np = pd.values 2.将numpy类型转换为list类型,通过.tolist()方法转换:list = np.tolist() 

2018-08-21 11:43:29 3372

原创 情感分析背后的朴素贝叶斯及实现基于评论语料库的影评情感分析(附代码)

一.情感分析的介绍      一句话概括情感分析:判断出一句评价/点评/影评的正/负倾向性;      情感分析是一个二分类的问题,一种是可以直接判断正负,一种是可以判断情感偏向正负性的一个打分;二,词袋模型(向量空间模型)2.1情感分析的流程   中文分词处理,停用词的去除,对否定词做处理,情感分析方法主要可以分为两大类,基于词典的方法和机器学习方法。   把对文本内容的...

2018-08-21 00:58:31 12876 3

原创 a bytes-like object is required,not 'str'

提示这个错误,意思是说:需要类型是str类型,而不能是bytes类型,解决办法是将byte类型转化为str类型 # bytes object b = b"example" # str object s = "example" # str to bytes bytes(s, encoding = "utf8") # bytes to str str(b, en...

2018-08-20 17:58:12 691

原创 Pandas中使用to_csv函数常见错误总结(持续更新)

1.输出的utf8数据用Excel打开是乱码:原来的操作是直接to_csv:train.to_csv('train_test.csv')  后来换了参数,使用:train.to_csv('train_test.csv',encoding='utf-8') 但还是不行,最后查阅资料使用了这个方法,最终成功,原因不明,明白了以后补充,多谢 train.to_csv('tr...

2018-08-20 10:53:00 13712

原创 随机森林优化预测氪金玩家开源

        有道是最终结果的好坏,特征工程占大头,而模型和算法只占一小部分。但也需好的模型来进行优化,不敢妄称开源,代码写的还不规范,有问题一起交流,欢迎拍砖!# 导入库文件import pandas as pdimport numpy as npfrom pandas import Series,DataFramefrom sklearn.tree import Decisi...

2018-08-20 01:13:09 361 1

原创 Pandas为某列赋值操作

Pandas新添加一列A,为A列赋值,值为B列的value:  1.若两列的行数相同,则可以直接进行赋值: test_X['multiple'] = test['multiple']  2.若两列的行数不同,则可以采用左连接的方式进行赋值:后期整理。。...

2018-08-19 23:33:24 26294

原创 在调用sklearn fit时出现 Unknown label type: 'unknown'错误

在sklearn 模型训练是出现如下报错:‘ValueError: Unknown label type: ‘unknown’’该怎么解决?意思是类型不匹配,需要将字符串数组转换为数值型;以fit为例:train_y后加上astype(‘int’)即可gbdt.fit(train_x,train_y.astype(‘int’))...

2018-08-16 15:09:36 4770 2

原创 Pandas消除空值

       今天遇到一个需求如下:需要删除读取的csv的文件中,某一列为空的行,想到Dataframe中有dropna方法来删除空值,于是查文档操作如下:       test1000 = test1000.dropna(subset=['prediction_pay_price'])       subset的参数是列名,可以指定多列;      如果要删除列的话,则可以:...

2018-08-16 14:09:06 3267

原创 Python pandas中的cumsum和cumprod的用法及实际用途

       累加cumsum和累乘cumprod主要是用来看数据的变化趋势.      累加是通过流量得到存量,比如每天销售量的多少,得到今年的销售量总量;      累乘是通过变化率来得到存量,比如有每天的数据变动趋势,通过累乘来得到当前的数据;      累加的用法:      通过df.cumsum()   来求df的累计次数;       ...

2018-08-15 16:56:03 24245

原创 Python 数据分析Matplotlib入门

1.简单绘图    让图像显示出来的方法:    方法一:    plt.plot(a,b)    plt.show()    方法二:    %matplotlib inline    plt.plot(a, b)   # %timeit 表示代码执行的时间   %timeit  # 第三个参数表示线段的类型,  plt.plot(a, b, '--')...

2018-08-15 16:43:00 494

原创 Python 数据分析Pandas进阶

一.Series和DataFrame的简单数学运算      1.Series的运算:       有值的则相加,没值对照的相加的为nan;      2.Dataframe的运算:      dataframe之间的相加运算和Series一样,不同的是sum运算:df3 = DataFrame([[1,2,3],[4,5,np.nan],[7,8,9]],index=['A...

2018-08-14 21:01:36 923

原创 python中的可哈希和不可改变性

元素为不可变的数据类型,则其为可哈希1.可哈希(hashable)和不可改变性(immutable)如果一个对象在自己的生命周期中有一哈希值(hash value)是不可改变的,那么它就是可哈希的(hashable)的,因为这些数据结构内置了哈希值,每个可哈希的对象都内置了__hash__方法,所以可哈希的对象可以通过哈希值进行对比,也可以作为字典的键值和作为set函数的参数。所有pyth...

2018-08-13 16:37:29 1404

原创 Python 数据分析Pandas入门

     Pandas是数据科学领域非常重要的工具,它主要可以做数据分析的处理,Pandas主要有两个主要的数据结构,一个是Series,一个是Dataframe. 一.Series创建:   1.通过py list来创建series:     s1 = pd.Series([1,2,3,4])     Series中有两部分内容,第一个内容是数据value,第二个是索引ind...

2018-08-13 16:27:07 690 2

原创 Python字典操作及课后练习

'''dict,唯一一个映射数据类型数据类型划分:可变数据类型,不可变数据类型不可变数据类型:元组,bool int str(对str的任何改变都是形成了新的str,对原来的str没有改变)可变数据类型:list,dict,setdict key 必须是不可变数据类型,可哈希,元祖bool,int,str value: 任意数据类型;dict 优点: 二分查找去查询 ...

2018-08-10 23:42:56 1556

原创 用Python实现将一张图片分成9宫格

经常看到朋友圈或者空间里有朋友发布照片时,将朋友圈的照片切分为九宫格,参考了一些大神的博客资料,现整理如下;将图片分拆成九宫格的思路:读取图片->填充图片为正方形(fill_image函数)->将图片切分为9张(cut_image函数)->保存图片(save_image)->over代码实现如下:from PIL import Imageimport s...

2018-08-10 13:22:00 11212 4

原创 Python 数据分析Numpy入门

# 5个常用的py库:numpy,pandas,Scipy(实现了线性代数,傅里叶变换,信号和图像处理),matplotlib,skitlearn# 矩阵:矩阵的数组,即二维数组,其中向量和标量都是矩阵的特例# 向量:是指1*n或者n*1的矩阵# 标量:1*1的矩阵# 数组:n维的数组,是矩阵的延伸# 矩阵:二维数组; 向量:1*n或者n*1# 数组的创建和访问import num...

2018-08-10 10:44:00 280

原创 Python列表及元组操作及练习

 列表操作:增: append,insert,extend(可迭代的去添加)删: 按元素去删除:remove 按索引去删:pop去除(有返回值), del删除(彻底删除),clear清空列表改: 按索引去改(直接指定值进行修改);按切片去改(可迭代的去修改,添加个数不定)查: for循环,按索引来查;按切片来查可迭代: 如果是字符串,则每个拆分为最小的单元;如果是列...

2018-08-09 14:00:00 3526

原创 Python中字符串操作课后练习

# 1.content = input("请输入内容:")# 题目:用户输入:5+9或5+ 9 或5 + 9,然后进行分割再进行计算# 方法一:content = input("请输入内容:")print(content)print(type(content))con1 = content.split('+')num = 0for i in con1: print(i)...

2018-08-08 21:21:09 717

原创 ascii码字节数目总结

ascii 英文字母,特殊字符,数字:一个字节,8位;万国码Unicode:unicode 最开始16位两个字节,中文不够32位 4个字节。占用资源多。升级:utf-8 utf-16 utf-32utf-8:最少用一个字节,8位表示一个英文。                   欧洲16位,两个字节。                   亚洲 24位,三个字节。gbk:中国国产,只...

2018-08-08 13:50:57 8171

原创 探探人脸识别自动右滑1.0版本(附代码)

探探人脸识别自动右滑1.0版本 相信大家对探探都不陌生,但每天右滑右滑的,真的觉得很是浪费时间,但里面的妹纸比较漂亮却又不舍得不滑,万一能约到呢。。。于是自己起初就用adb的方法来无限右滑,但后来发现右滑匹配的女孩不是自己喜欢的,后就加了腾讯的接口,实现了探探右滑操作。 思路如下: 1.探探无限连滑 这个实现比较简单,通过定位像素的xy位...

2018-08-08 11:29:27 6428 8

原创 Python实现--使用微信定时每天和女友发送定制消息(附代码教程)

但凡有些事情重复时,我就在想怎么可以用程序来自动化。这里想分享如何每天给女友定时微信发送”晚安“,如果只是晚安,就略显单调,于是爬取金山词霸每日一句,英文和翻译,借此设定定时器进行发送。 准备:pip install wxpypip install requests 实现代码:from __future__ import unicode_l...

2018-08-07 21:36:06 33172 36

原创 sklearn决策树回归使用预测氪金玩家(网格搜索)

使用sklearn的DecisionTreeRegressor解决分类问题实例。数据集描述       数据集存放在一个csv的文件中,其中有108个特征,1列目标变量。其中特征中有一个特征是玩家id,以及玩家的注册时间,将这两个无关变量剔除掉。剩余106个特征,特征变量的类型为数字。加载数据      import numpy as npimport pandas as ...

2018-08-07 21:30:33 1325 3

nlp-requirements安装包

NLP开发工具集成包,其中包括numpy,nltk,gensim,tensorflow,jieba,Stanford NLP,Hanlp, 通过pip install -r nlp-requirements.txt 一键进行下载

2019-06-08

hanlp词性列表.docx

Hanlp词性列表,包括词性及注解,以及常用及不常用词的选择

2019-06-07

神经网络设计 . 美国 Hagan.清晰版

神经网络设计 . 美国 Hagan.清晰版,深度学习入门必备!

2019-01-03

MATLAB神经网络原理与实例精解pdf

MATLAB神经网络原理与实例精解,含有深度学习中的所有模型及文档及程序说明,深度学习入门必备!

2019-01-03

《机器学习实战:基于Scikit-Learn和TensorFlow 》高清中文

《机器学习实战:基于Scikit-Learn和TensorFlow 》高清中文,必备书籍!!!!

2018-12-25

selenium webdriver第三版

对于Selenium更加详细的操作和使用,推荐一本书《selenium webdriver(python)第三版》,该书详细的讲解了webdriver的用法

2018-09-03

时序分析经典教程

时序分析经典教程,由老师推荐,里面论述详细合理,具有逻辑性,是本好读物!

2018-08-24

phantomjs.exe

用于python的自动化登陆phantomjs的使用,以及对自动化测试会有很大帮助,资源确信可用,放心1!!

2018-04-05

python自动化登陆chromdriver

用于python的自动化登陆senlenium的使用,以及对自动化测试会有很大帮助,资源确信可用,放心1!!

2018-04-05

中文识别语言库tesseract.ocr

中文识别语言库tesseract.ocr,可以进行图片中文识别,而且亲测没有乱码!!!!

2018-03-10

tesseract-ocr-setup-3.02.02-图片识别

tesseract-ocr-setup-3.02.02-图片识别,可以使用,尽情放心!~!

2018-01-22

使用python以及工具包进行简单的验证码识别

一份非常好的例子demo,带尼学会验证码识别,轻松的步入大门!

2018-01-22

链栈程序总结(比课本上的简单)

链栈的程序,相当简单方便!你值得拥有!比课本上的还要简单噢!

2015-11-17

蓝桥杯真题软件类

蓝桥杯软件真题,软件类,马上快要比赛了,这是比不可多得的宝藏噢!

2015-10-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除