自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 xpath的基本使用

XPath是一门在XML文档中查找信息的语言,可以用来在XML文档对元素和属性进行遍历,而我们熟知的HTML恰好属于XML的一个子集。在一个节点下面,通过都会用很多个相同的标签,这个时候如果想拿到单独的某一个,就可以通过属性来筛选。这个返回的是个列表,如果只想获取文本内容,那么直接用取下标的方式即可。如果想要取到某一个节点的属性值,而不是文本内容,那么可以用下面的方式。如果想找到book下面的name子节点,可以用下面的代码。导入的方式有两种,如果第一种报错,就使用第二种。“huoche”>火车。

2024-01-04 19:09:00 313

原创 bs4的基本使用

find函数,第一个参数是标签名,第二个参数是属性,这里是为了查找ID值为abc的li标签,满足需求的就只有一个。find函数从页面中查找满足条件的值,并且只查找一个,而findAll则是查找所有,并且参数和find完全一致。这里已经找到了我们要的li标签了,那么如果还想再往里一层找到里面的a标签的话,就可以继续查找。如果我想要查找到Html里面所有的li标签,那么就可以使用find_all函数。如果想要拿到标签里面的链接,则可以通过取属性值的方式来获取。如果想要拿到标签里面的文本内容,可以用。

2024-01-02 20:21:42 378

原创 使用python爬取豆瓣Top250排行榜数据

通过F12可以直接搜索到目标数据,那么说明html结构和数据是一次性加载的,不需要二次记载。接下来就只需要提取数据就可以了,可以用正则,也可以用xpath。目标数据,爬取到电影名称,导演名字和年份,评分和评价人数。运行一下发现并没有拿到数据,那么可能要添加一下请求头。把User-Agent拿下来,然后填上header。我这里用正则匹配的方式进行提取。这个时候就拿到我们要的数据了。

2024-01-01 21:19:46 540 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除