GenjieLi-CSDN博客

原创五. PyQuery

PyQuery初始化字符串初始化html = '''<div> <ul> <li class="item-0">first item</li> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-0 active"><a href="l

2017-10-09 00:46:54 1353

原创五 . BeautifulSoup库详解及运用

BeautifulSoup库详解及运用BeautifulSoup是灵活又方便的网页解析库，处理高效，支持多种解析器，利用它不用编写正则表达式即可实现网点信息的提取。解析库各个解析库的比较：解析器使用方法优势劣势 Python标准库 BeautifulSoup(markup, “html.parser”) Python的内置标准库、执行速度适中、文档容错能力强

2017-10-08 09:58:46 532

原创四. 正则表达式的使用

正则表达式什么是正则表达式？定义：正则表达式是对字符操作的一种逻辑公式，就是用事先定义好的一些特定的字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串” 用来表达对字符的一种过滤逻辑。非Python独有，re模块实现样例展示推荐网址 [http://tool.oschina.net/regex/#]在线正则表达式测试，并且有相关提取规则可以直接使用。规则讲解模式描述

2017-10-07 00:35:32 405

原创三. Requests库的基本使用

Requests库的基本使用Requests库的基本使用 Requests 是用Python语编写，基于urllib，采用Apache2 Licensed 开源协议的 HTTP 库。它比urllib更加方便，可以节约我们大量的事件，完全满足HTTP 测试需求。简而言之——Rquest库是Python实现的简单的HTTP库。实例引入import requestsresponse = re

2017-10-05 22:03:49 445

原创二. Urllib库详解

Urllib库的详解什么是Urllib？urllib.request 请求模块urllib.error 异常处理模块urllib.parse url解析模块urllib.robotparser robots.txt解析模块相比Python2变化Python2:import urllib2response=urllib2.urlopen("http://www.baidu.com")

2017-10-05 17:12:05 281

原创一. 什么是爬虫

爬虫入门第一节什么是爬虫？爬虫就是请求网站并提取数据的自动化程序。爬虫的基本流程发起请求。通过HTTP库向目标站点发起请求。即发送一个request请求，请求可以包含额外的headers等信息，等待服务器响应。获取相应内容。如果服务器正常响应，遇到一个response对象，response的内容就是所要获取的网页内容。解析内容。得到的内容可能是HTML。可以通过正则表达式，网页解析器进行解析。

2017-10-04 22:52:08 534

原创 Ubuntu 17.04 无线网络不能连接解决方法

Ubuntu 17.04 无线网络不能连接解决方法出于隐私原因，默认设置的Ubuntu的网络管理器（所有的桌面，不只是Gone）导致MAC地址的设备不断变化导致连接不上WiFi。要修复此问题，需要编辑配置文件，然后重启网络管理器。打开一个终端并运行：sudo -s gedit /etc/NetworkManager/NetworkManager.conf要注意大小写！在该文件的底部，复制粘贴如下

2017-09-30 10:20:52 4571

原创欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2017-09-29 21:44:06 143

niandanzhi9501的博客