爬虫——练习-爬取一定范围内的页面数据

最新推荐文章于 2023-10-29 16:42:33 发布

大神，起风了

最新推荐文章于 2023-10-29 16:42:33 发布

阅读量1.4k

点赞数 1

分类专栏：爬虫文章标签：爬虫基础练习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Light__1024/article/details/88674152

版权

在这里插入图片描述
爬取前三页的数据
第一次写的代码：

# 综合项目实战：爬取搜狗，知乎某一词条对应的某一范围页码的数据
# 分析下爬取第一页的url和第二页的url，get请求参数中只有page在变，把url固定，变量封装

import requests

url='http://zhihu.sogou.com/zhihu?'
headers={
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
}

for page in range(1,3):

    params={
        'query':'人工智能',
        'page':page,
        'ie':'utf-8'    
    }

    response = requests.get(url=url,params=params,headers=headers)
    page_data = response.text
    with open(str(page)+ '.html','w',encoding='utf-8') as f:

最低0.47元/天解锁文章

大神，起风了

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
爬虫——练习-爬取一定范围内的页面数据

爬取前三页的数据第一次写的代码：# 综合项目实战：爬取搜狗，知乎某一词条对应的某一范围页码的数据# 分析下爬取第一页的url和第二页的url，get请求参数中只有page在变，把url固定，变量封装import requestsurl='http://zhihu.sogou.com/zhihu?'headers={"User-Agent":"Mozilla/5.0 (Windo...
复制链接

扫一扫

专栏目录

大神，起风了 CSDN认证博客专家 CSDN认证企业博客

码龄6年

99: 原创

13万+: 周排名

188万+: 总排名

11万+: 访问

: 等级

2047: 积分

32: 粉丝

48: 获赞

14: 评论

310: 收藏

私信

关注

热门文章

分类专栏

最新评论

爬虫——scrapy框架爬取多个页面电影的二级子页面的详细信息
漂亮男孩不说谎: def parse(self, response): for each in response.xpath("//li[@class='newsdata_item']/div/div"): item = NewsItem() name = each.xpath("a/text()").extract() href = each.xpath("a/@href").getall() if len(name)>0 and len(href)>0 and name[0].strip().replace('\n', '')!='' and href[0].strip().replace('\n', '')!='': item['name'] = name[0] item['href'] = href[0] print( name[0]+href[0] ) yield scrapy.Request(url=href[0], callback=self.parse_detail, meta={'item': item}) def parse_detail(self, response): print(len(response.xpath("//div[@class='post_body']/p/text()").extract())) detail="" for each in response.xpath("//div[@class='post_body']/p/text()").extract(): detail+=each item = response.meta['item'] item["body"]=detail 老师帮我看一下为啥每次只有最后一条被存到数据库？
数据库的创建表时，字段的数据类型和约束条件
Knight_12318: 感谢
http协议：请求协议，响应协议。请求方法的get和post。响应码
心系雨滴: 479715493
前端——css相对定位，绝对定位，固定定位
Sfatiao: 两张图中间一句话，那你是解释上面一张图呢还是下面一张。
前端——css相对定位，绝对定位，固定定位
SoftSheng..: 不是很明白

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。