萌新python爬虫初学

前言:先声明本人是小菜鸡一枚,望大佬勿鄙视。就在今天总感觉有什么大事发生,心神不宁的,突然天空一声巨响,菜鸡萌生写博客的想法。(天啦!天啦!这是要翻天了,菜鸡都要写博客了)现在的初心是:方便自己整理学习,再者把自己的一些遇到坑的解决办法,把自己的心得分享出来,就像我自己的介绍就是“向往大神操作”。废话说多了,开整。

一:python爬虫需要会什么:

当然python爬虫肯定需要一些python基础知识,需要有静态网页的基础(html:看得懂网页源码),计算机网络基础(看得懂数据请求),http协议,前期这就够了。

后面稍微深入一点就需要,js基础(js逆向),数据库基础(将爬取的数据写入数据库)。

当然以上你都不会也没有很大关系,硬核学习,走一步学一步。只不过有的打脑壳。

二:需要必备工具:

1.pycharm(Python语言开发时提高其效率的工具,必备)

推荐下载地址:https://www.zdfans.com/search.asp?keyword=pycharm 里面有安装教程,版本随意。

2.Fiddler(抓包工具,初学不太会用到)

推荐下载地址:https://www.zdfans.com/search.asp?keyword=Fiddler

3.鬼鬼js调试工具(用于js逆向调试)

推荐下载地址:http://cr1a.197946.com/guiguijstiaoshi.zip

三:pycharm中所需要的库:

1.更换库源(自带库下载很慢)

进入pycharm——找到设置——项目(项目解释器)——点击+号——管理存储库(然后替换就行)

清华 https://pypi.tuna.tsinghua.edu.cn/simple
中科大 https://pypi.mirrors.ustc.edu.cn/simple
阿里云 https://mirrors.aliyun.com/pypi/simple
豆瓣 http://pypi.douban.com/simple

2.下载需要的库

requests(用于请求),lxml(个人觉得非常好用)

四:正题 简单爬取百度搜索页面:

# -*-coding:utf-8 -*-
import requests

if __name__ == '__main__':
    # 搜索关键字
    search = input("输入关键字:")
    # 需要爬取的连接
    url = "https://www.baidu.com/baidu?tn=monline_3_dg&ie=utf-8&wd={}".format(search)
    # headers伪装(一些网站没有请求头会请求失败或者乱码)
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:83.0) Gecko/20100101 Firefox/83.0'}
    
    # 开始请求 请求类型为test(有json数据,content二进制 等)
    response=requests.get(url=url,headers=headers).text
    
    # 保存为html文档
    fileName = search+'.html'
    with open(fileName,'w',encoding='utf-8') as fp:
        fp.write(response)
    print(fileName,'保存成功')

好了,这就是完成了最简单的爬虫!

会继续更新!有不懂的可以随时问!感谢看完!辛苦您了!热爱学习的你!乾坤未定,你我皆是黑马!

  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

白寸(渴~知)

钱包空空如也

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值