新晋菜鸟--学习进度总结

目录
一、爬虫篇
二、爬虫中遇到的问题
三、 基于TensorFlow的舆情分类深度学习算法
四、RPA篇

2019年7月1日,正式入职撼地大数据,激动混杂着伤感的情感说不清。前几个月还在工地挖隧道,转眼之间就坐在了梦寐以求的写字楼里面敲代码,以为自己的人生从此将开启新的篇章,殊不知,其实只是从一个围城跳到另一个围城罢了。简而言之,只是换了一个新的战场,只不过这个战场能看到希望,这段时间最感激的就是我的Angie Li。
这半个月以来,每天就是让自己处在高强度学习之中,自己一切重头来,不敢不学习,只有埋头苦学。领导给我布置的任务就是让自己学习(非常感激我们的龙总给了我一个转换的机会,并且给了自己足够的学习的时间),这段时间只是感觉很对不起公司,没做什么贡献。这半个月学到的东西,以及遇到的问题总结如下:

一、爬虫篇

  1. 一开始就是做简单的单个网页抓取数据(其中用到的库有urllib,requests,bs4中的Beautifulsoup,lxml,re正则表达式,xpath);
  2. 后来开始抓取整个网站的数据;
  3. 用scrapy框架写爬虫程序抓取数据,在这之中学习了分布式爬虫,多线程爬虫,代理IP池,cookie的使用,headers的使用;
  4. 爬过的网站有:小说网站、嗅事百科、斗图网、豆瓣电影、企业黄页、中国知网、百度文库、淘宝网、企查查。尝试过爬取国家信用信息公示系统,没有什么进展;

二、爬虫中遇到的问题

1.HTML中文编码问题(“utf-8”);
2.爬虫长时间运行报错(解决办法是添加“user-agent”或者更换IP地址);
3.网站传参加密的问题;
目前未解决的问题就是关于爬取速度过快出现的验证码验证问题(解决思路是增加代理IP的数量或者短效动态代理);

三、基于TensorFlow的舆情分类深度学习算法

1.部署Baiduspider MySQL代码
2.Baiduspier代码的维护
3.舆情分类深度学习代码学习

四、RPA篇

1.前景:目前, 60%的职业 30%的工作可以被完全自动化 ,RPA技术就是用软件 机器人代替人工在电脑上执行各种重复性的操作;
可以应用到:工程资料的录入,财务中的核对报表,发票打印,核对薪酬,计算绩效,数据自动监测;
2.熟悉了uipath studio,用uipath开发了自动抓取企查查数据并导出未Excel,,数据的录入,用uipath中的ORC识别验证码;

人生苦短,我用python。这半个月给自己打60分,学习态度还是挺端正的,也够拼命;学习方法,学习的心态还有待改进,任重而道远。一回头,确实好多东西,不经历,推不开他的大门,自己在进步,这就是很好的的状态。
接下来,提高自己的自学能力,更加自信,学会自我管理。全身心投入uipath,爬虫技术不能丢,适当接触深度学习。

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值