爬虫-从入门到入狱（level1）

最新推荐文章于 2024-06-25 09:58:07 发布

澎湖Java架构师

最新推荐文章于 2024-06-25 09:58:07 发布

阅读量209

点赞数

分类专栏：面试学习路线阿里巴巴文章标签：爬虫 python 开发语言 spring 游戏引擎

本文链接：https://blog.csdn.net/m0_54850604/article/details/124912685

版权

面试同时被 3 个专栏收录

129 篇文章 1 订阅

订阅专栏

学习路线

95 篇文章 0 订阅

订阅专栏

阿里巴巴

56 篇文章 0 订阅

订阅专栏

本文介绍了如何使用Python进行简单的网络数据采集，通过编写代码利用requests库来实现百度搜索引擎的搜索，并将搜索结果的网页源码保存为HTML文件。文中还指导了如何查看浏览器的请求头，以伪装成正常浏览器访问防止被反爬程序识别。完成这个步骤标志着爬虫初学者已达到level1水平。

摘要由CSDN通过智能技术生成

我们往往需要采集大量的数据来进行分析，这些信息可以来源于网上，我们可以用爬虫的方法来获取到这些数据。

这里我们创建了一段代码，用我们的百度搜索引擎来搜索我们想要的词条

#这里我们导入request模块
import requests
if __name__=="__main__":
#这里我们指定我们的url，也就是我们的百度网址
    url='https://www.baidu.com'
#这里我们使用input获取我们输入的内容
    kw=input('enter a word:')
#这里定义我们的请求头，使用请求头可以方式反爬程序识别出我们的爬虫程序。
#因为请求头可以让我们的代码伪装成使用浏览器的正常访问，在文章的后面会介绍怎么查看自己的请求头
    headers={
        'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36'
    }
#这里我们使用一个字典类型来将我们要搜索的对象传入。
    param={
        'query':kw
    }
#这里我们使用response来接收我们request获得的网页数据，同时将我们的搜索参数和请求头传入
    response=requests.get(url=url,params=param,headers=headers)
#使用我们的page_text将我们返回文件中的text保存下来
    page_text=response.text
#将我们的存储的文件命名为我们的搜索的对html，
    fileName=kw+'.html'
#将我们获取到的网页进行永久化存储
//创建我们已经命好名的文件，并以写入的方式打开，并且设置我们的编码集为utf-8
    with open(fileName,'w',encoding='utf-8') as fp:
        fp.write(page_text)
    print(fileName,'保存成功')

接下来，我们就会发现在我们的python文件的同级目录下多了一个文件

然后打开我们的文件就能够获取到我们搜索夜阑配队的网页原码了。

接下来我们介绍怎么才能查看到我们自己电脑的请求头。

首先打开我们的谷歌浏览器，在我们的浏览器的输入网址的地方输入about:version

然后咱敲一下回车，就会看到我们电脑浏览器的信息

其中的用户代理这一栏就是我们的请求头

OK，如果你能将上述的代码完成，那么我们的爬虫就已经到了level1的水平。

澎湖Java架构师

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫-从入门到入狱（level1）

我们往往需要采集大量的数据来进行分析，这些信息可以来源于网上，我们可以用爬虫的方法来获取到这些数据。这里我们创建了一段代码，用我们的百度搜索引擎来搜索我们想要的词条#这里我们导入request模块import requestsif __name__=="__main__":#这里我们指定我们的url，也就是我们的百度网址 url='https://www.baidu.com'#这里我们使用input获取我们输入的内容 kw=input('enter a word:')#这里定义
复制链接

扫一扫

专栏目录