实训日记7：爬取文章数据/团队日记7

最新推荐文章于 2023-06-02 17:48:44 发布

米老鼠与刘老根

最新推荐文章于 2023-06-02 17:48:44 发布

阅读量524

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37623085/article/details/89821146

版权

实训日记7

本周实训，我们使用网络爬虫爬取我们需要的资讯数据。
资讯信息的爬取需要按照我们的数据库设计进行。字段如下图：
在这里插入图片描述

选择资讯网站

深刻地体会到了一个结构不清晰的网页对爬虫的劝退效果远各种超反爬虫技术。。。
根据本人的考察，国内所有资讯网站的网页结构都十分混乱，不同类型的资讯所在的网页结构差别巨大，这让我们很难泛化地写出爬虫。
即便如此，我们也要进行爬取，精挑细选我选择了环球网作为本次爬取的目标。
环球网国际板块的结构如下：
在这里插入图片描述

然而到了军事板块，网页就变成了这样：

完全不同的结构，怎么办呢，当然是寻找共同点。
根据我仔细观察，两者的超链接都存放在<li>标签中，于是我们对所有类型的资讯网页，都爬取其<li>标签内的内容。至于其中的噪声数据可以在爬虫内部处理。
接下来看文章内部网页：
在这里插入图片描述
需要爬取标题，时间，作者，内容。其中内容爬取富文本即可。这一步很简单，找到网页结构中存放数据的标签，记录下即可。

编写爬虫

编写爬虫爬取链接信息，代码如下：

import requests
import random
import urllib
from bs4 import BeautifulSoup

User_Agents =[
    'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50',
    'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us)

最低0.47元/天解锁文章

米老鼠与刘老根

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
实训日记7：爬取文章数据/团队日记7

本周实训，我们使用网络爬虫爬取我们需要的咨询数据。
复制链接

扫一扫

米老鼠与刘老根 CSDN认证博客专家 CSDN认证企业博客

码龄7年

17: 原创

31万+: 周排名

226万+: 总排名

1万+: 访问

: 等级

342: 积分

30: 粉丝

23: 获赞

14: 评论

63: 收藏

私信

关注

热门文章

分类专栏

疑难杂症
作业 4篇

最新评论

实训日记2：实现卷积神经网络对视线的回归
ermaoyou: 博主，你采用的数据可以发给我一份吗？谢谢
实训日记3：面部图像正则化
米老鼠与刘老根: 私信我邮箱吧，我把现在用的正则化代码给你。这是好几年前的代码，懒得看了。
实训日记3：面部图像正则化
weixin_41359207: 大佬，我直接运行你的程序，但是normalizeImg文件里的 down=np.cross(forward,hRx)报错ValueError: non-broadcastable output operand with shape () doesn't match the broadcast shape (1,)，好像跟forward,hRx的shape有关系，但是我输出了都是(3,)，感觉符合要求呀，请问这是怎么回事呀？
实训日记2：实现卷积神经网络对视线的回归
文文1203: 博主，能发一份你的实验数据到我的邮箱吗？谢谢，zhangwenwen_1203@163.com
实训日记10：Security Analysis of DNN
water_likly: 博主，我现在也在看这篇文章。首先感觉这个文献在对抗样本检测方面应该优于其他的对抗样本检测方法，但是文中好像没有提到，也没有对比；其次，我看他这个数据实验，我发现他这个在缩小对抗区间时依然存在一些区间，这些区间时存在对抗样本的，也就是说他这个方法能检测出大量的对抗样本，但是依然会有对应的算法来构造对抗样本，这个样本可以绕过ReluVal的检测。所以我感觉这个论文最大的成功之处在于：1 理论形式化证明了安全要素，2 能够检测多数对抗样本的存在。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。