python爬虫实践报告_零python基础--爬虫实践总结

最新推荐文章于 2022-12-17 15:18:54 发布

weixin_39542936

最新推荐文章于 2022-12-17 15:18:54 发布

阅读量1.7k

点赞数

文章标签： python爬虫实践报告

网络爬虫，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

爬虫主要应对的问题：1.http请求 2.解析html源码 3.应对反爬机制。

主要步骤：

1、按照教程下载python、配置环境变量，学习使用pip命令、安装开发ide：pycharm

2、学习使用python发送请求获取页面

3、使用chrome开发者工具观察页面结构特征，使用beautifulsoup解析页面

4、保存页面到本地文件

遇到的主要问题：

1.python基本语法：变量、函数、循环、异常、条件语句、创建目录、写文件。可以参考《Python基础教程》

2.python缩进很重要，缩进决定语句分组和层次，在循环的时候尤其看清楚。

3.编码格式：从代码编辑、到网页内容、中文文件名，无处不有编码格式的问题。可以参考《Python编码问题整理》

5.抓取规则失效，重新分析失效页面，重新选择页面特征。

实践，用爬虫获取网页上的试题（自动抓取下一页）代码：

#encoding=utf8#设置编辑源py文件的编码格式为utf8

importrequests, sys, chardet, os, time, random, timefrom bs4 importBeautifulSoup

reload(sys)#必须要重新加载

sys.setdefaultencoding("utf8")print sys.getdefaultencoding(), sys.getfilesystemencoding() #utf8 mbcs:MBCS(Multi-ByteChactacterSystem,即多字节字符系统)它是编码的一种类型,而不是某个特定编码的名称</

最低0.47元/天解锁文章

weixin_39542936

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python爬虫实践报告_零python基础--爬虫实践总结

网络爬虫，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。爬虫主要应对的问题：1.http请求 2.解析html源码 3.应对反爬机制。主要步骤：1、按照教程下载python、配置环境变量，学习使用pip命令、安装开发ide：pycharm2、学习使用python发送请求获取页面3、使用chrome开发者工具观察页面结构特征，使用beautifulsoup解析页面4、保存页面到本地文件遇...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。