![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
网络爬虫
拾清心
星光不问赶路人,时光不负有心人
展开
-
爬取虎扑步行街论坛数据保存到MySQL、MongoDB
本文内容围绕获取虎扑步行街论坛上所有帖子的数据开展的,爬取的内容包括帖子名称、帖子链接、作者、作者链接、创建时间、回复数、浏览数、最后回复用户和最后回复时间,将爬取的数据分别保存在MongoDB和MySQL里网页地址: https://bbs.hupu.com/bxj 在运行代码前记得启动MySQL、MongoDB,还需要在MySQL中创建所使用到的库与表在MySQL中可能将要使用到的命令:创建mypyt原创 2021-11-17 15:00:36 · 1438 阅读 · 0 评论 -
爬取豆瓣音乐TOP250数据保存到csv文件和xls文件
爬取的目标网址:https://music.douban.com/top250利用lxml库,获取前10页的信息,需要爬取的信息包括歌曲名、表演者、流派、发行时间、评分和评论人数,把这些信息存到csv和xls文件在爬取的数据保存到csv文件时,有可能每一行数据后都会出现空一行,查阅资料后,发现用newline=’'可解决,但又会出现错误:‘gbk’ codec can’t encode character ‘\xb3’ in position 1: illegal multibyte sequence,原创 2021-10-29 14:20:46 · 1911 阅读 · 1 评论 -
利用Python中的BeautifulSoup库爬取安居客第一页信息
题目:网址为https://beijing.anjuke.com/sale/,利用BeautifulSoup库,爬取第1页的信息,具体信息如下:进入每个房源的页面,爬取小区名称、参考预算、发布时间和核心卖点,并将它们打印出来。(刚学网络爬虫。若有错误,望指正)代码如下:import requestsfrom bs4 import BeautifulSoupheaders = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64)原创 2021-10-21 20:34:35 · 332 阅读 · 0 评论 -
利用Python中的BeautifulSoup库爬取豆瓣读书中书本信息
利用BeautifulSoup库,获取前250本图书的信息,需要爬取的信息包括书名、书名的URL链接、作者、出版社和出版时间、书本价格、评分和评论,把这些信息存到txt文件,要求将这些信息对齐,排列整齐 (我是刚学习网络爬虫,代码如有错误,望指正)网址为:https://book.douban.com/top250代码如下:import requestsfrom bs4 import BeautifulSoupimport timeheaders原创 2021-10-21 20:29:35 · 1159 阅读 · 0 评论