使用pycharm进行爬取网页
所需数据库:
requests 这也是爬虫最常用的数据库。
调用方式:import requests
开始时,可能并没有这个数据库,需要下载安装,
在电脑的cmd中输入pip install requests
等待安装后即可
建立头文件
目的为了绕过网站的反爬虫机制,进行UA伪装。
建立方式headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36' }
其中Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36
为你浏览器上的头文件,可以在浏览器上打开开发者工具,快捷键ctrl +shift + i
,在上面进行查看headers
获取网站的URL
在此处我用的是搜狐网站url = 'https://www.sogou.com/web'
,当然你也可以自己定义别的,比如百度
将URL携带的参数封装到字典中
#处理url携带的参数:封装到字典中
kw = input('enter a word:')
param = {