- 博客(6)
- 收藏
- 关注
原创 项目实训-爬虫flask化
使用Flask将Selenium脚本服务器化,将Selenium辅助脚本作为一个单独的服务在另外一台设备上部署,与其余的Java后端分开。
2024-06-23 15:35:29 720
原创 项目实训-selenium爬取
keyword = '通义千问'urls = [links_and_titles = [] # 存储所有链接和标题keywords_to_filter = ['首页', '番剧', '直播', ...] # 省略了部分内容: 存储抓取到的链接和标题。: 需要过滤掉的标题关键词列表。: 需要过滤掉的域名列表。
2024-06-23 15:32:07 304
原创 项目实训-joup尝试爬取
任务尝试使用joup爬取网页,摘除所有的链接和文本信息尝试使用joup编写Main代码使用joup可以直接连接到URL网站,得到网站的HTML文件,从中摘出href标签的超文本,即可得到链接和链接文本,将其打印出来,就是清洗得到的结果。 public static void main(String[] args) { try { // 目标网站的URL String url = "https://www.baidu.com/s?
2024-06-23 15:31:20 1069
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人