程序员川雪-CSDN博客

原创 xpath的基本使用

XPath是一门在XML文档中查找信息的语言，可以用来在XML文档对元素和属性进行遍历，而我们熟知的HTML恰好属于XML的一个子集。在一个节点下面，通过都会用很多个相同的标签，这个时候如果想拿到单独的某一个，就可以通过属性来筛选。这个返回的是个列表，如果只想获取文本内容，那么直接用取下标的方式即可。如果想要取到某一个节点的属性值，而不是文本内容，那么可以用下面的方式。如果想找到book下面的name子节点，可以用下面的代码。导入的方式有两种，如果第一种报错，就使用第二种。“huoche”>火车。

2024-01-04 19:09:00 313

原创 bs4的基本使用

find函数，第一个参数是标签名，第二个参数是属性，这里是为了查找ID值为abc的li标签，满足需求的就只有一个。find函数从页面中查找满足条件的值，并且只查找一个，而findAll则是查找所有，并且参数和find完全一致。这里已经找到了我们要的li标签了，那么如果还想再往里一层找到里面的a标签的话，就可以继续查找。如果我想要查找到Html里面所有的li标签，那么就可以使用find_all函数。如果想要拿到标签里面的链接，则可以通过取属性值的方式来获取。如果想要拿到标签里面的文本内容，可以用。

2024-01-02 20:21:42 378

原创使用python爬取豆瓣Top250排行榜数据

通过F12可以直接搜索到目标数据，那么说明html结构和数据是一次性加载的，不需要二次记载。接下来就只需要提取数据就可以了，可以用正则，也可以用xpath。目标数据，爬取到电影名称，导演名字和年份，评分和评价人数。运行一下发现并没有拿到数据，那么可能要添加一下请求头。把User-Agent拿下来，然后填上header。我这里用正则匹配的方式进行提取。这个时候就拿到我们要的数据了。

2024-01-01 21:19:46 540 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 xpath的基本使用

原创 bs4的基本使用

原创 使用python爬取豆瓣Top250排行榜数据

空空如也

空空如也

原创使用python爬取豆瓣Top250排行榜数据