数据处理流程总结

最新推荐文章于 2021-10-15 17:00:55 发布

伊玛目的门徒

最新推荐文章于 2021-10-15 17:00:55 发布

阅读量1.5k

点赞数

分类专栏：建模

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37195257/article/details/79509655

版权

建模专栏收录该内容

13 篇文章 1 订阅

订阅专栏

爬虫：

1.工具 python requests包，伪造header，IP池代理

2ThreadPoolExecutor模块，多进程抓取未成功获得的网页池。

做一个爬取成功URL池listyes 和不成功URL池子listno,初始赋值listno=全部URL。每次只从失败的listno中进行

#多线程
def multithreading():
number = listno #每次爬取未爬取成功的页
event = []

with ThreadPoolExecutor(max_workers=10) as executor:

for result in executor.map(network_programming,
number, chunksize=10):
event.append(result)

return event

event = multithreading()

for i in event:

爬虫成功

listyes.append(页码)

listno.remove(页码)

3.随机等待

4.从抓下来的html中 re正则表达式或者xpath方式抓想要的目标。BEAUTIFULSOUP BS4包好用

遇到验证码，可考虑采用机器学习类数字识别api暴力破解。

当未成功抓取的网页池为空，或者总运行时间到达预期，over

数据导出：

把数据导出为csv或者html，或者conn连接数据库（MYSQLDB包），导入到数据库

数据清洗：

去重，空白纸填充...... 数据标准化

可用工具excel，SPSS ,PYTHON

EXCEL自带拆分工具，有效针对如图原生的list输出的csv：

用逗号，分列就完事了

同理，python split函数也是隔开 “，”

考虑某些连续变量远比其它变量大小范围广，考虑取对数，或者 X1-Xmin/Xmax-Xmin

数据建模和分析

1 SPSS MODLER 引用数据，建立流。

选出检验结果最好的N个算法模型，对它们再取权重，完成混合模型

2 machine learning：

1. 其实SPSS MODLER本身也是是用机器学习算法进行分类和回归的

2. PYTHON 的 SKLEARN 包

3. 谷歌 TEBSORFLOW ，谷歌全开源，还有中文教程

考虑训练集，验证集（google tensorflw教程提倡以此来微调参数），检验集

算法（术）：线性回归，决策树，贝叶斯，SVM,K近邻， K均值，神经网络（若隐藏层大于2，就算深度学习了吧）

思路（道）：梯度下降，贪婪算法

3 普通商务企业，数据量小于 10万的话，还是excel 吧。散点图、直方图、饼图，国企和非互联网企业最为常用

可视化可考虑 PYTHON matplotlib

文字：jieba分词、wordcloud可视化
数据柱形图可视化 barh
数据直方图可视化 hist
数据散点图可视化 scatter
数据回归分析可视化 regplot

伊玛目的门徒

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据处理流程总结

爬虫：1.工具 python requests包，伪造header，IP池代理2ThreadPoolExecutor模块，多进程抓取未成功获得的网页池。做一个爬取成功URL池listyes 和不成功URL池子listno,初始赋值listno=全部URL。每次只从失败的listno中进行 #多线程 def multithreading(): number = listn...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。