- 博客(6)
- 资源 (1)
- 收藏
- 关注
原创 python爬虫系列4--requests
+ Requests是用Python语言编写,基于 urllib,采用 Apache2 Licensed开源协议的HTTP库。它比 urllib更加方便,可以节约我们大量的工作,完全满足HTTP测试需求。Requests的哲学是以PEP20的习语为中心开发的,所以它比urllib更加 Pythoner。更重要的一点是它支持 Python3。Requests使用的是urllib3,因此继承了它的所有...
2018-05-30 21:19:00 209
原创 python爬虫系列4--BeautifulSoup
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。+ soup = BeautifulSoup(html_string),soup.title、.p、.a、.head、.body、.b,soup.find_all,soup.find(id=xxx),soup.get_text+ Beautiful Soup支持Python标准库中的HTML解析器(html....
2018-05-29 23:45:41 461
原创 python爬虫系列3--正则表达式
正则表达式第一件能做的事是能够匹配不定长的字符集。+ 正则表达式查询表:\ 将下一字符标记为特殊字符、文本、反向引用或八进制转义符。例如,“n”匹配字符“n”。“\n”匹配换行符。序列“\”匹配“\”,“(”匹配“(”。^ 匹配输入字符串开始的位置。如果设置了 RegExp 对象的 Multiline 属性,^ 还会与“\n”或“\r”之后的位置匹配。$ 匹配输入字符串结尾的位置...
2018-05-29 22:57:41 846
原创 python爬虫系列1--方案概述
爬虫技能树:##爬虫进阶必须 http://www.yeayee.com/article-6569383-1.html0. requests 模块, beautifulsoup模块, css选择器语法, re正则模块, http头编写, cookies,json解析等一定要掌握至熟练及以上程度.1. 爬取重ajax页面, 推荐phantomjs,其次...
2018-05-26 20:44:16 527
原创 彻底卸载VS2010
网上说使用vs2010-uninstall-utility可以完全卸载VS2010,实测并不能完全卸载VS2010,通过手动一个一个删除VS2010的相关组件又太麻烦,发现一个方便的删除方式,其实VS2010已经提供了删除方法:打开控制面板-卸载程序,找到VS2010的主程序包,右键卸载,会打开VS2010的安装界面,选择卸载即可卸载所有相关组件。...
2018-05-20 19:16:41 34561 3
原创 python开发工程师招聘要求
##python开发工程师+ python爬虫工程师负责大规模文本、图像等数据的抓取、结构化信息的提取、质量识别等工作。1. 开发分布式网络爬虫2. 提取结构化信息3. 识别结构化信息的质量岗位要求:1. 熟悉 Linux 开发环境,熟练使用 Shell2. 熟悉 高并发、高性能分布式系统3. 熟悉 HTTP协议,熟悉 HTML,JavaScript,XPath4. 熟悉 网络协议5. 从事 Py...
2018-05-02 21:52:38 16324
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人