Python爬虫实习笔记 | Week6 Daliy工作流水

最新推荐文章于 2023-02-12 21:09:37 发布

SunLight Jr

最新推荐文章于 2023-02-12 21:09:37 发布

阅读量936

点赞数

分类专栏： PAT(甲级) 爬虫 Maple的实习笔记文章标签： python 实习笔记

本文链接：https://blog.csdn.net/qq_37597345/article/details/84433122

版权

这是一篇关于作者在Python爬虫实习过程中的周记，主要内容包括通过分析HTML结构自动获取爬取URL，提高爬取效率，遇到的图片和分页内容为主的网站挑战，以及验证码识别的尝试。作者分享了模拟登录、网络编程的学习心得，同时也探讨了如何处理全角数字和动态加载网页的数据抓取问题。

摘要由CSDN通过智能技术生成

2018/11/19
1.所思所想
上午主要就是做自己的事情，是的，如果没有一天天的积淀，而完全依靠项目中的不足而及时弥补，很难发现自己的痛点，并自觉的去完善。
下午可以说很成功，虽然没有做具体任务，但却解决了“困境”中的一环：不需要手动寻找我们需要爬取的数据，主要是url，而是根据html文档自有的特性，及所爬去模块的特征去寻找，可以说相当棒了。

2.工作：
【1】184 长沙市环保局没找到 http://hbj.changsha.gov.cn/
【2】185 株洲市环保局 http://hbj.zhuzhou.gov.cn/c7738/index.html
【3】网页内容爬取之通用化

2018/11/20
1.所思所想：
今天上午还是看python爬虫实战，感觉自己在慢慢前进，毕竟很多事并不是一蹴而就的。在这个过程中，我需要不断提醒自己，要完善要精致，对于自身的不足，需要努力弥补，然后终能有所为。上午百度云的模拟登录简直太棒了，但好像web发生了改版，所以还没有成功模拟下。另外，下午用昨天的改进方法，效率大大提升，昨天应该是爬了9个市，真的惊人，我想如果能爬取到分页页码中的信息，应该会更快吧，加油！晚上去办了健身卡，资金问题雪上加霜啊啊啊啊，这段时间尽量节俭，早晚稀饭，这样不仅省钱，还能为保持健美体格做准备。

2.工作：
184-197 行政处罚完成
188 邵阳市环保局内容以图片为主 http://hbj.shaoyang.gov.cn/Node-4108.html

最低0.47元/天解锁文章

SunLight Jr

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫实习笔记 | Week6 Daliy工作流水

2018/11/191.所思所想上午主要就是做自己的事情，是的，如果没有一天天的积淀，而完全依靠项目中的不足而及时弥补，很难发现自己的痛点，并自觉的去完善。下午可以说很成功，虽然没有做具体任务，但却解决了“困境”中的一环：不需要手动寻找我们需要爬取的数据，主要是url，而是根据html文档自有的特性，及所爬去模块的特征去寻找，可以说相当棒了。2.工作：【1】184 长沙市环保局没找到...
复制链接

扫一扫

专栏目录