萌新python爬虫初学

最新推荐文章于 2024-06-17 21:21:45 发布

白寸(渴～知)

最新推荐文章于 2024-06-17 21:21:45 发布

阅读量354

点赞数 4

分类专栏： python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/m0_46631208/article/details/117369824

版权

python 专栏收录该内容

2 篇文章 2 订阅

订阅专栏

前言：先声明本人是小菜鸡一枚，望大佬勿鄙视。就在今天总感觉有什么大事发生，心神不宁的，突然天空一声巨响，菜鸡萌生写博客的想法。(天啦！天啦！这是要翻天了，菜鸡都要写博客了)现在的初心是：方便自己整理学习，再者把自己的一些遇到坑的解决办法，把自己的心得分享出来，就像我自己的介绍就是“向往大神操作”。废话说多了，开整。

一：python爬虫需要会什么：

当然python爬虫肯定需要一些python基础知识，需要有静态网页的基础(html：看得懂网页源码)，计算机网络基础（看得懂数据请求），http协议，前期这就够了。

后面稍微深入一点就需要，js基础(js逆向)，数据库基础(将爬取的数据写入数据库)。

当然以上你都不会也没有很大关系，硬核学习，走一步学一步。只不过有的打脑壳。

二：需要必备工具：

1.pycharm（Python语言开发时提高其效率的工具，必备）

推荐下载地址：https://www.zdfans.com/search.asp?keyword=pycharm 里面有安装教程，版本随意。

2.Fiddler（抓包工具，初学不太会用到）

3.鬼鬼js调试工具（用于js逆向调试）

推荐下载地址：http://cr1a.197946.com/guiguijstiaoshi.zip

三：pycharm中所需要的库：

1.更换库源（自带库下载很慢）

进入pycharm——找到设置——项目（项目解释器）——点击+号——管理存储库（然后替换就行）

清华 https://pypi.tuna.tsinghua.edu.cn/simple
中科大 https://pypi.mirrors.ustc.edu.cn/simple
阿里云 https://mirrors.aliyun.com/pypi/simple
豆瓣 http://pypi.douban.com/simple

2.下载需要的库

requests（用于请求），lxml（个人觉得非常好用）

四：正题简单爬取百度搜索页面：

# -*-coding:utf-8 -*-
import requests

if __name__ == '__main__':
    # 搜索关键字
    search = input("输入关键字：")
    # 需要爬取的连接
    url = "https://www.baidu.com/baidu?tn=monline_3_dg&ie=utf-8&wd={}".format(search)
    # headers伪装（一些网站没有请求头会请求失败或者乱码）
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:83.0) Gecko/20100101 Firefox/83.0'}
    
    # 开始请求 请求类型为test（有json数据，content二进制 等）
    response=requests.get(url=url,headers=headers).text
    
    # 保存为html文档
    fileName = search+'.html'
    with open(fileName,'w',encoding='utf-8') as fp:
        fp.write(response)
    print(fileName,'保存成功')

好了，这就是完成了最简单的爬虫！

会继续更新！有不懂的可以随时问！感谢看完！辛苦您了！热爱学习的你！乾坤未定，你我皆是黑马！