python爬虫
爆炸超人
爆炸超人爱爆炸
展开
-
python的re模块常见的三种使用案例
导包 这是python自带的包 不用安装 import re 提取 语法: re.findall(【正则表达式】,【被提取的字符串】) 注:返回的类型是列表 匹配 语法: re.match(【正则表达式】,【被提取的字符串】) 注:如果匹配成功,返回<class ‘re.Match’>对象 如果匹配不成功,返回None 替换 语法: re.sub(【正则表达式】,【替换成的字符串】,【被替换的字符串】) ...原创 2020-07-28 17:48:07 · 198 阅读 · 0 评论 -
Python爬虫案例--爬取csdn博客文章
用python爬取csdn博客文章并保存到本地 这个案例用python爬取了csdn上指定关键字的文章,关键字自己输入,爬取页数自己输入,较为灵活。利用了urllib库和lxml库,并用到xpath插件。 案例分析 要下载博客,首先要找到博客的地址,用xpath插件找到所有博客地址 然后找到博客的标题,以此为本地html文件命名 代码实现注意 request对象的url地址中代表页码和搜索关键字的关键字 不是固定的 这里用format输入 有些标题含有python认为的非法字符 包括以下9个,原创 2020-07-28 17:35:03 · 748 阅读 · 1 评论 -
Python爬虫案例--连接百度翻译接口制作翻译小工具
制作翻译小工具 这个爬虫案例连接百度翻译接口,利用urllib库制作翻译小工具。这是我刚接触爬虫的案例,代码健硕性还有待提高,记录在此。 案例分析 首先需要打开百度翻译页面,f12打开控制台查看其http协议里的关键字 找到sug的接口url: http://fanyi.baidu.com/sug 表单提交是Post请求 提交的关键字是kw(也就是输入的需要翻译的内容) 网页里传回的数据是json数据类型 代码实现注意 kw关键字用字典保存,需要经过url编码再封装进request对象 得到的数据是原创 2020-07-28 17:15:31 · 382 阅读 · 0 评论