数据抓取必须学会的三种技术

我们正处于一个大数据的时代,在这样的一个以数据为王的时代,第一步就是如何获取数据。大概的流程是这样的:通过Http客户端获取html页面,通过html页面解析工具解析html页面,获取感兴趣的数据元素,最后将解析后的数据写入数据库。Python为这几个过程都提供了很方便的库供我们调用,使得数据获取简单快捷。

HTTP客户端

Requests,这里是它的主页
这样一条语句就能获取到html页面了

html = requests.get(url, headers=headers).text 

HTML页面解析器

Beautiful Soup,这里是它的主页
这样一条语句就解析好html页面了

soup = BeautifulSoup(html,"html.parser")

MySQL数据库客户端

PyMySQL,这里是它的主页,都不需要Mysql的驱动库,直接安装使用。

    con = pymysql.connect(host='localhost',
                             user='root',
                             password='root',
                             db='test',
                             charset='utf8mb4',
                             cursorclass=pymysql.cursors.DictCursor)
    try:
        with con.cursor() as cursor:
            sql = "insert into tbl_movie (title, director, director_factor, actors, actors_factor, year, country, types, rating) values(%s,%s,%s,%s,%s,%s,%s,%s,%s)"
            cursor.execute(sql, (title, director,director_factor,actors,actors_factor,year,country,types,rating))
        con.commit()

    finally:
        con.close()
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值