Python爬虫笔记

目录

爬虫爬到数据库的代码

爬到excel的汇总代码


本次爬虫作业较大程度上参考了b站Python爬虫编程基础5天速成(2021全新合集)Python入门+数据分析_哔哩哔哩_bilibili,将其爬豆瓣网站的代码将其修改变为了爬取东方财富网的代码。

首先,我们来看百度对爬虫的定义,网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。本人理解,让机器代替人去检索人需要的信息,这样可以更高效,毕竟在“重复”的事情上,机器的效率更高。

其次,我们使用机器模仿人的操作,所以需要“伪装”,在开发者模式下,找到浏览器的头文件,进行爬虫的伪装,伪装之后向网页发送request。

   head = {  # 模拟浏览器头部信息,向豆瓣服务器发送信息
        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36"
    }

然后通过beautifulsoup解析网页代码,关于解析代码,在此解释,我们一般看到都是网页图片文字相结合,但是事实上这些网页都是代码,因为程序员的优化,便于人们阅读,因此爬虫爬取的网页都是代码,我们需要使用特定的方式解析。我们要查找的数据都在解析后的一大段代码,使用正则表达式通过特定的规则提取,最后就是保存,本文使用的保存是保存在excel中,老师的要求是保存在数据库中,截止写本段时间10月16日21:27,还未弄懂,未完待续。

经过询问,如何插入到数据库的过程如下:

宏观上,简单分为三部分,链接数据库,像数据写入东西,断开数据库(类似于如何把一个大象装进冰箱?),

链接如下

    # 1、连接数据库
    db = pymysql.connect(host="localhost", port=3306, user="root", password="qwe123", database="python", charset="utf8")
    cursor = db.cursor()

创建,注意创建之后需手动去数据库里面修改字段的长度

    try:
        cursor.execute('create table catering_sale(num char primary key,date char)')
    except:
        print('数据库已存在!')

创建之后需要向数据库里写东西,此处注意一定要有commit()语句,否则​程序可以运行,但是数据库中无

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值