新晋菜鸟--学习进度总结

最新推荐文章于 2021-03-31 21:18:51 发布

dbd数据

最新推荐文章于 2021-03-31 21:18:51 发布

阅读量194

点赞数 2

分类专栏：总结文章标签：爬虫学习进度总结舆情分类

本文链接：https://blog.csdn.net/JDance1978/article/details/96769997

版权

总结专栏收录该内容

2 篇文章 0 订阅

订阅专栏

目录
一、爬虫篇
二、爬虫中遇到的问题
三、基于TensorFlow的舆情分类深度学习算法
四、RPA篇

2019年7月1日，正式入职撼地大数据，激动混杂着伤感的情感说不清。前几个月还在工地挖隧道，转眼之间就坐在了梦寐以求的写字楼里面敲代码，以为自己的人生从此将开启新的篇章，殊不知，其实只是从一个围城跳到另一个围城罢了。简而言之，只是换了一个新的战场，只不过这个战场能看到希望，这段时间最感激的就是我的Angie Li。
这半个月以来，每天就是让自己处在高强度学习之中，自己一切重头来，不敢不学习，只有埋头苦学。领导给我布置的任务就是让自己学习（非常感激我们的龙总给了我一个转换的机会，并且给了自己足够的学习的时间），这段时间只是感觉很对不起公司，没做什么贡献。这半个月学到的东西，以及遇到的问题总结如下：

一、爬虫篇

一开始就是做简单的单个网页抓取数据（其中用到的库有urllib，requests，bs4中的Beautifulsoup，lxml，re正则表达式，xpath）；
后来开始抓取整个网站的数据；
用scrapy框架写爬虫程序抓取数据，在这之中学习了分布式爬虫，多线程爬虫,代理IP池，cookie的使用，headers的使用；
爬过的网站有：小说网站、嗅事百科、斗图网、豆瓣电影、企业黄页、中国知网、百度文库、淘宝网、企查查。尝试过爬取国家信用信息公示系统，没有什么进展；

二、爬虫中遇到的问题

1.HTML中文编码问题（“utf-8”）；
2.爬虫长时间运行报错（解决办法是添加“user-agent”或者更换IP地址）；
3.网站传参加密的问题；
目前未解决的问题就是关于爬取速度过快出现的验证码验证问题（解决思路是增加代理IP的数量或者短效动态代理）；

三、基于TensorFlow的舆情分类深度学习算法

1.部署Baiduspider MySQL代码
2.Baiduspier代码的维护
3.舆情分类深度学习代码学习

四、RPA篇

1.前景：目前， 60%的职业 30%的工作可以被完全自动化，RPA技术就是用软件机器人代替人工在电脑上执行各种重复性的操作；
可以应用到：工程资料的录入，财务中的核对报表，发票打印，核对薪酬，计算绩效，数据自动监测；
2.熟悉了uipath studio，用uipath开发了自动抓取企查查数据并导出未Excel，，数据的录入，用uipath中的ORC识别验证码；

人生苦短，我用python。这半个月给自己打60分，学习态度还是挺端正的，也够拼命；学习方法，学习的心态还有待改进，任重而道远。一回头，确实好多东西，不经历，推不开他的大门，自己在进步，这就是很好的的状态。
接下来，提高自己的自学能力，更加自信，学会自我管理。全身心投入uipath，爬虫技术不能丢，适当接触深度学习。

dbd数据

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
新晋菜鸟--学习进度总结

目录一、爬虫篇二、目前在爬虫中遇到的问题有三、基于TensorFlow的舆情分类深度学习算法篇四、RPA篇2019年7月1日，正式入职撼地大数据，激动混杂着伤感的情感说不清。前几个月还在工地挖隧道，转眼之间就坐在了梦寐以求的写字楼里面敲代码，以为自己的人生从此将开启新的篇章，殊不知，其实只是从一个围城跳到另一个围城罢了。简而言之，只是换了一个新的战场，只不过这个战场能看到希望，这段时间...
复制链接

扫一扫