最近,在数据挖掘课,要交课设了,打算做一个通过机器学习进行新闻分类,首先要有大量的文本(新闻),去做训练,并通过爬虫爬取大量的新闻
一,思路如下:
0.首先确定获取数据的网站
1.通过BeautifulSoup来切取链接
2. 然后使用python的第三方框架newspaper3k,直接通过给指定的链接,然后返回新闻文本(当然也可通过BeautifulSoup切出文本)
二,过程如下:
1.选定网址 新浪新闻 https://news.sina.com.cn/roll/#pageid=153&lid=2509&k=&num=50&page=1
页面如上
2.查看更多新闻可以使用拼接url 也可以模拟点击,我这里用的模拟点击
使用python 框架 selenium 来进行模拟点击
selenium 是一套完整的web应用程序测试系统,用它来进行模拟点击,需要配合Google Chrome或着火狐浏览器使用,配合不同的驱动
定位点击按钮时,不同的元素
对于新浪网来说如下:
这个点击定位是找到页面中所有对应的id,自上向下,第一个是我们想要的
browser.find_elements_by_class_name("pageb