目录
一、爬虫篇
二、爬虫中遇到的问题
三、 基于TensorFlow的舆情分类深度学习算法
四、RPA篇
2019年7月1日,正式入职撼地大数据,激动混杂着伤感的情感说不清。前几个月还在工地挖隧道,转眼之间就坐在了梦寐以求的写字楼里面敲代码,以为自己的人生从此将开启新的篇章,殊不知,其实只是从一个围城跳到另一个围城罢了。简而言之,只是换了一个新的战场,只不过这个战场能看到希望,这段时间最感激的就是我的Angie Li。
这半个月以来,每天就是让自己处在高强度学习之中,自己一切重头来,不敢不学习,只有埋头苦学。领导给我布置的任务就是让自己学习(非常感激我们的龙总给了我一个转换的机会,并且给了自己足够的学习的时间),这段时间只是感觉很对不起公司,没做什么贡献。这半个月学到的东西,以及遇到的问题总结如下:
一、爬虫篇
- 一开始就是做简单的单个网页抓取数据(其中用到的库有urllib,requests,bs4中的Beautifulsoup,lxml,re正则表达式,xpath);
- 后来开始抓取整个网站的数据;
- 用scrapy框架写爬虫程序抓取数据,在这之中学习了分布式爬虫,多线程爬虫,代理IP池,cookie的使用,headers的使用;
- 爬过的网站有:小说网站、嗅事百科、斗图网、豆瓣电影、企业黄页、中国知网、百度文库、淘宝网、企查查。尝试过爬取国家信用信息公示系统,没有什么进展;
二、爬虫中遇到的问题
1.HTML中文编码问题(“utf-8”);
2.爬虫长时间运行报错(解决办法是添加“user-agent”或者更换IP地址);
3.网站传参加密的问题;
目前未解决的问题就是关于爬取速度过快出现的验证码验证问题(解决思路是增加代理IP的数量或者短效动态代理);
三、基于TensorFlow的舆情分类深度学习算法
1.部署Baiduspider MySQL代码
2.Baiduspier代码的维护
3.舆情分类深度学习代码学习
四、RPA篇
1.前景:目前, 60%的职业 30%的工作可以被完全自动化 ,RPA技术就是用软件 机器人代替人工在电脑上执行各种重复性的操作;
可以应用到:工程资料的录入,财务中的核对报表,发票打印,核对薪酬,计算绩效,数据自动监测;
2.熟悉了uipath studio,用uipath开发了自动抓取企查查数据并导出未Excel,,数据的录入,用uipath中的ORC识别验证码;
人生苦短,我用python。这半个月给自己打60分,学习态度还是挺端正的,也够拼命;学习方法,学习的心态还有待改进,任重而道远。一回头,确实好多东西,不经历,推不开他的大门,自己在进步,这就是很好的的状态。
接下来,提高自己的自学能力,更加自信,学会自我管理。全身心投入uipath,爬虫技术不能丢,适当接触深度学习。