Python爬虫笔记

最新推荐文章于 2022-03-07 11:23:35 发布

m0_61737454

最新推荐文章于 2022-03-07 11:23:35 发布

阅读量226

点赞数

文章标签：爬虫 python 数据库

本文链接：https://blog.csdn.net/m0_61737454/article/details/120840765

版权

爬虫爬到数据库的代码

爬到excel的汇总代码

本次爬虫作业较大程度上参考了b站Python爬虫编程基础5天速成（2021全新合集）Python入门+数据分析_哔哩哔哩_bilibili，将其爬豆瓣网站的代码将其修改变为了爬取东方财富网的代码。

首先，我们来看百度对爬虫的定义，网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。本人理解，让机器代替人去检索人需要的信息，这样可以更高效，毕竟在“重复”的事情上，机器的效率更高。

其次，我们使用机器模仿人的操作，所以需要“伪装”，在开发者模式下，找到浏览器的头文件，进行爬虫的伪装，伪装之后向网页发送request。

   head = {  # 模拟浏览器头部信息，向豆瓣服务器发送信息
        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36"
    }

然后通过beautifulsoup解析网页代码，关于解析代码，在此解释，我们一般看到都是网页图片文字相结合，但是事实上这些网页都是代码，因为程序员的优化，便于人们阅读，因此爬虫爬取的网页都是代码，我们需要使用特定的方式解析。我们要查找的数据都在解析后的一大段代码，使用正则表达式通过特定的规则提取，最后就是保存，本文使用的保存是保存在excel中，老师的要求是保存在数据库中，截止写本段时间10月16日21:27，还未弄懂，未完待续。

经过询问，如何插入到数据库的过程如下：

宏观上，简单分为三部分，链接数据库，像数据写入东西，断开数据库(类似于如何把一个大象装进冰箱？)，

链接如下

    # 1、连接数据库
    db = pymysql.connect(host="localhost", port=3306, user="root", password="qwe123", database="python", charset="utf8")
    cursor = db.cursor()

创建，注意创建之后需手动去数据库里面修改字段的长度

    try:
        cursor.execute('create table catering_sale(num char primary key,date char)')
    except:
        print('数据库已存在！')

创建之后需要向数据库里写东西，此处注意一定要有commit()语句，否则程序可以运行，但是数据库中无

最低0.47元/天解锁文章

m0_61737454

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫笔记

目录爬虫爬到数据库的代码爬到excel的汇总代码本次爬虫作业较大程度上参考了b站Python爬虫编程基础5天速成（2021全新合集）Python入门+数据分析_哔哩哔哩_bilibili，将其爬豆瓣网站的代码将其修改变为了爬取东方财富网的代码。首先，我们来看百度对爬虫的定义，网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。本人理解，让机..
复制链接

扫一扫