python爬虫
Changod
我爱学习学习爱我
展开
-
python爬虫学习笔记--BeautifulSoup (一)
BeautifulSoup 库 -- 解析,遍历, 维护标签树的功能库, 也叫beautifulsoup4库或者bs4from bs4 import BeautifulSoup(从bs4中引入类)/ import bs4<p class="title">...</p> // p:标签的名称,成对出现,表明范围p的中间出现域,class的属性是“title...原创 2019-04-27 17:43:59 · 307 阅读 · 0 评论 -
python爬虫学习笔记--BeautifulSoup (二)(三种遍历类型)
demo = ("http://python123.io/ws/demo.html").text标签树遍历方式:下行遍历:.content() // 当前节点子节点的列表,将<tag>所有儿子节点存入列表.children() // 子节点的迭代类型,循环编列儿子节点(类似content).descendants() // 获取当前节点所有后续节点的信息(迭代类...原创 2019-04-27 18:08:44 · 800 阅读 · 0 评论 -
python爬虫学习笔记--信息标记
信息标记:XML ,JSON, YAMLXML :标签形式, 通用的信息表达形式标签中有内容: <name> ... </name>标签中没有内容: <name />注释: <! -- -->JSON(Javascript):有类型的键值对 -- key:value一个键可以对应多个值(用list涵盖)也可以...原创 2019-04-27 18:29:45 · 198 阅读 · 0 评论 -
python爬虫学习笔记 -- 三种标记的比较
XML :最早的通用的信息标记语言, 可扩展性好, 但是繁琐JSON : 信息有类型, 适合程序进行处理, 较为简洁YAML : 信息无类型, 信息含量高, 可读性强,文本利用率高XML : internet上的信息交互和传递JSON : 用于移动应用云端和节点的信息通信,无注释(用于程序对接口处理的地方)YAML : 用于各类系统的配置文件, 有注释且易读...原创 2019-04-27 18:50:47 · 167 阅读 · 0 评论 -
python爬虫学习笔记 -- 信息提取 及HTML内容查找方法(soup.find_all()) + 正则表达式
方法一: 完整解析信息的标记形式,再提取关键信息需要标记解析器(例如bs4库的标签树遍历)优点: 信息解析准确缺点:提取过程繁琐, 速度慢方法二: 无视标记形式,直接搜索关键信息直接对信息的文本查找函数即可优点:简介, 快速缺点:提取结果准确性与信息内容相关融合方法:结合形式的解析和搜索方法,提取关键信息XML JSON YAML搜索需要标记解析...原创 2019-04-27 19:32:30 · 5550 阅读 · 0 评论 -
进阶版(还是很low的)--python翻译爬虫
这次升级了一下上次的xjb搞爬虫因为这次学会用BS处理标签了,在查看了网站源代码之后发现不过如此,我也能搞!然后就搞了一个,目前该爬虫支持简单的短语翻译(必须很简单才行,而且最好不要超过三个词)和所有的单词搜索(至少目前没有遇到搜不出来的),关于短语/短文的翻译,后面再做更新,感觉应该不难,还可以继续实现多种语言翻译,慢慢来现在效果是这样子的,还能告诉你是什么词性,嘻嘻,主要是页面简洁...原创 2019-04-28 00:44:02 · 186 阅读 · 0 评论 -
再进阶版(依旧low的) -- python翻译爬虫详解
这次更新支持了短文的查询下面是过程:首先找到一篇短文:Today, my mother has something to do, so she needs to meet her friends. I make a promise that I will clean the house when she returns. But I become lazy soon. I start ...原创 2019-04-28 11:13:47 · 349 阅读 · 0 评论 -
pyinstaller -- python代码的封装
使用pyinstaller库可以把python代码封装成exe文件注意,是全自动的哦!!!真的是太感人了,对于程序员而言,能用上自己开发的软件简直是莫大的幸福执行 pip3 install pyinstaller 就可以安装了奥,不过必须要搭梯子才能success,尴尬不之后进入py文件目录下执行命令 pyinstaller -F 文件名.py之后就能在当前目录下的dist文件夹...原创 2019-04-29 00:05:52 · 417 阅读 · 0 评论