前言:先声明本人是小菜鸡一枚,望大佬勿鄙视。就在今天总感觉有什么大事发生,心神不宁的,突然天空一声巨响,菜鸡萌生写博客的想法。(天啦!天啦!这是要翻天了,菜鸡都要写博客了)现在的初心是:方便自己整理学习,再者把自己的一些遇到坑的解决办法,把自己的心得分享出来,就像我自己的介绍就是“向往大神操作”。废话说多了,开整。
一:python爬虫需要会什么:
当然python爬虫肯定需要一些python基础知识,需要有静态网页的基础(html:看得懂网页源码),计算机网络基础(看得懂数据请求),http协议,前期这就够了。
后面稍微深入一点就需要,js基础(js逆向),数据库基础(将爬取的数据写入数据库)。
当然以上你都不会也没有很大关系,硬核学习,走一步学一步。只不过有的打脑壳。
二:需要必备工具:
1.pycharm(Python语言开发时提高其效率的工具,必备)
推荐下载地址:https://www.zdfans.com/search.asp?keyword=pycharm 里面有安装教程,版本随意。
2.Fiddler(抓包工具,初学不太会用到)
推荐下载地址:https://www.zdfans.com/search.asp?keyword=Fiddler
3.鬼鬼js调试工具(用于js逆向调试)
推荐下载地址:http://cr1a.197946.com/guiguijstiaoshi.zip
三:pycharm中所需要的库:
1.更换库源(自带库下载很慢)
进入pycharm——找到设置——项目(项目解释器)——点击+号——管理存储库(然后替换就行)
清华 https://pypi.tuna.tsinghua.edu.cn/simple
中科大 https://pypi.mirrors.ustc.edu.cn/simple
阿里云 https://mirrors.aliyun.com/pypi/simple
豆瓣 http://pypi.douban.com/simple
2.下载需要的库
requests(用于请求),lxml(个人觉得非常好用)
四:正题 简单爬取百度搜索页面:
# -*-coding:utf-8 -*-
import requests
if __name__ == '__main__':
# 搜索关键字
search = input("输入关键字:")
# 需要爬取的连接
url = "https://www.baidu.com/baidu?tn=monline_3_dg&ie=utf-8&wd={}".format(search)
# headers伪装(一些网站没有请求头会请求失败或者乱码)
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:83.0) Gecko/20100101 Firefox/83.0'}
# 开始请求 请求类型为test(有json数据,content二进制 等)
response=requests.get(url=url,headers=headers).text
# 保存为html文档
fileName = search+'.html'
with open(fileName,'w',encoding='utf-8') as fp:
fp.write(response)
print(fileName,'保存成功')
好了,这就是完成了最简单的爬虫!
会继续更新!有不懂的可以随时问!感谢看完!辛苦您了!热爱学习的你!乾坤未定,你我皆是黑马!