Python
weixin_40683302
这个作者很懒,什么都没留下…
展开
-
Datawhale零基础入门NLP赛事 - Task1 赛题理解
这里写自定义目录标题Datawhale零基础入门NLP赛事 - Task1 赛题理解赛题理解赛题数据数据标签评测指标数据读取解题思路Datawhale零基础入门NLP赛事 - Task1 赛题理解你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。赛题理解赛题名称:零基础入门NLP之新闻文本分类赛题目标:通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理原创 2020-07-21 23:22:23 · 101 阅读 · 0 评论 -
爬取淘宝商品信息(正则版)
爬取淘宝商品信息(正则版)确定目标信息的存在形式,可以看到价格前面有标签"view_price",标题前面有标签"title"程序分为四部分,分别为提取网页HTML文本、解析页面对目标信息进行提取、打印信息以及主函数。具体如下:import requestsimport redef getHTMLText(url): """提取页面HTML代码,并返回HTML文本"...原创 2020-04-25 13:10:09 · 817 阅读 · 3 评论 -
爬取中国大学的排名
爬取中国大学的排名进入目标网址,选中目标信息,右键点击检查查看源代码,可以发现所有的大学都封装在标签tbody之下,并且每一个大学都封装在同名标签tr之下。所以可以用for循环遍历所有的tr,提取目标信息。用bs4解析网页,之后用soup.<标签>访问目标标签,之后用string提取信息。以下附上实现的代码import requestsfrom bs4 import...原创 2020-04-23 22:55:29 · 370 阅读 · 0 评论 -
爬取豆瓣影评前250名的电影名
爬取豆瓣影评前250名的电影名前250名电影分布于前十页,通过观察前十页的网址可以找到网址变化的规律获取网页源代码,找到目标信息之后用正则表示式对信息进行匹配# 导入模块import reimport requestsheaders = { 'User-Agent':'Mozilla/5.0'}# 请求url,因为一页有25个电影,共10页。这里用一个for函...原创 2020-04-21 23:45:50 · 487 阅读 · 0 评论