数据处理流程总结

爬虫:

1.工具 python requests包,伪造header,IP池代理

2ThreadPoolExecutor模块,多进程抓取未成功获得的网页池。

做一个爬取成功URL池listyes 和 不成功URL池子listno,初始赋值listno=全部URL。每次只从失败的listno中进行


    #多线程
    def multithreading():
        number = listno        #每次爬取未爬取成功的页
        event = []

        with ThreadPoolExecutor(max_workers=10) as executor:

            for result in executor.map(network_programming,
                                    number, chunksize=10):
                event.append(result)

    return event

    event = multithreading()

    

    for i in event:

        爬虫成功

        listyes.append(页码)

        listno.remove(页码)


3.随机等待

4.从抓下来的html中 re正则表达式 或者xpath方式 抓想要的目标。BEAUTIFULSOUP BS4包好用

遇到验证码,可考虑采用机器学习类数字识别api暴力破解。

当未成功抓取的网页池为空,或者总运行时间到达预期,over


数据导出:

把数据导出为csv或者html,或者conn连接数据库(MYSQLDB包),导入到数据库



数据清洗:

去重,空白纸填充...... 数据标准化

    可用工具excel,SPSS ,PYTHON

EXCEL自带拆分工具,有效针对如图原生的list输出的csv:


用逗号,分列就完事了



同理,python split函数也是隔开 “,”

考虑 某些连续变量 远比 其它变量 大小范围广 , 考虑 取对数 , 或者 X1-Xmin/Xmax-Xmin


数据建模和分析

1  SPSS MODLER 引用数据,建立 流。


选出 检验结果最好的N个算法模型 ,对它们再取 权重 ,完成 混合模型


2 machine learning:

1. 其实SPSS MODLER本身也是是用机器学习算法 进行 分类和回归的

2. PYTHON 的 SKLEARN 包

3. 谷歌 TEBSORFLOW ,谷歌全开源 ,还有中文教程


考虑 训练集 ,验证集(google tensorflw教程提倡以此来微调参数), 检验集 

算法(术):线性回归,决策树,贝叶斯,SVM,K近邻 , K均值 ,神经网络(若隐藏层大于2,就算深度学习了吧)

思路(道):梯度下降,贪婪算法


3 普通商务企业,数据量小于 10万的话,还是excel 吧。散点图、直方图、饼图,国企和非互联网企业最为常用


可视化可考虑 PYTHON matplotlib

文字:jieba分词、wordcloud可视化
数据柱形图可视化 barh
数据直方图可视化 hist
数据散点图可视化 scatter
数据回归分析可视化 regplot






                
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值