python爬虫基本概念

最新推荐文章于 2022-09-30 10:26:33 发布

hi_zf

最新推荐文章于 2022-09-30 10:26:33 发布

阅读量190

点赞数

分类专栏：爬虫 python

本文链接：https://blog.csdn.net/hi_zf/article/details/110235119

版权

7 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

python爬虫基本概念：

-从输入网址到看到网页，都反生了什么？

统一资源定位符：Uniform Resource Locator
组成：协议域名
urllib是一个py分析url相关的工具
ipython是一个python命令行工具
- 使用tab 和？可以很方便使用python命令
requests是一个py请求工具
- r = requests.get(‘http://www.baidu.com’)
- r.text得到文字 r.content得到二进制数据 r.encoding得到编码
chardet.detect(r.content)
r.contetn.decode(‘utf-8’)
gb2312<gbk<gn18030
gbk保含gb2312，可以替换
pip 国内镜像pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pandas
pip install cchardet

cchardet.detect(‘科技健康的点点滴滴’.encode(‘gbk’))

建议使用cchardet 取代 chardet ,因为前者更准确

urllib.request
request
- r.test: str , chardet,headers->encoding
- r.content: bytes cchardet.detect(r.content)
- r.json
cchardet 编码
aiohttp:异步IO 做http请求，协程并发请求
selenium自动化测试工具
- webdirver.Chrome()
- chrome headless

打开网页加载的js
- 压缩混淆打包
- 晦涩难懂 pretty格式变量函数名难懂
找到js加密/解密算法的代码
- Charles抓包分析
  - 例子：https://www.yuanrenxue.com/crawler/get-login-cookies-charles-weibo.html
- Chrome调试JavaScript
  - 例子：translate.google.cn