- 博客(5)
- 收藏
- 关注
原创 创建爬虫(爬取网页代码并保存html文件)
测试:由于是在pycharm中输入的代码,所以在终端(Terminal)中输入scrapy crawl quotes,其中quotes是爬虫的名称,运行完成后,会在crawl.py文件的同级目录中自动生成两个.html文件。项目创建完成后,我们可以在pycharm中打开Scrapy项目。'http://quotes.toscrape.com/page/1/', #设置爬取的网页地址(url)爬取两个网页。在spiders(文件夹)中创建一个名称为crawl.py的爬虫文件,在该文件中输入爬虫的代码。
2023-07-25 20:48:45 1590
原创 请求headers处理(代码带有详细注释)
我在学习headers处理方式时遇到了一些问题,报错,说我的头部信息无法识别,经过一系列试错后,我发现头部信息无法识别与编码有关,我对其进行了改动,就可以正常识别了。,将 response.content进行解码的字符串,解码需要指定一个编码方式, requests会根据自己的猜测来判断编码的方式,response.content这个是直接从网络上面抓取的数据,没有经过任何解码。然后,对其进行了改动,以encoding指定的编码格式编码字符串。但是,手动解码无法识别,可能是计算机的问题。
2023-07-16 15:26:37 193 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人