![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
bugcoder-9905
长期更新Java学习笔记
展开
-
XPath学习
XPath可以帮助我们很方便地从html代码中提取我们想要的内容,比如href,文本等@ : 用于选择属性//li : 当前路径下所有的li标签:span/text():获取span标签下的文本(获取不到span标签内层标签的文本)span//text():获取span标签下的所有文本(可以获取span标签所有内层标签的文本)/html/head/meta/@content:根据节点关系...原创 2020-02-14 17:02:57 · 336 阅读 · 0 评论 -
爬取豆瓣网电视剧数据(共1500条)
我们现在爬取电视剧中的美剧、国产剧、港剧三个分类的所有数据,共1500条1、打开开发者工具,找到第一页对应的json数据2、在第一页的包含电视剧数据的包中找到请求的url3、为了观察将url得更清晰,我们接着点击“加载更多”打开下一页,进行抓包展示一下请求json的结构下面对比一下两个页面的url第一页:https://movie.douban.com/j/search_su...原创 2020-02-13 23:09:59 · 2617 阅读 · 0 评论