关闭

五. PyQuery

PyQuery初始化字符串初始化html = ''' first item second item <a href="l...
阅读(49) 评论(0)

五 . BeautifulSoup库详解及运用

BeautifulSoup库详解及运用BeautifulSoup是灵活又方便的网页解析库,处理高效,支持多种解析器,利用它不用编写正则表达式即可实现网点信息的提取。解析库各个解析库的比较: 解析器 使用方法 优势 劣势 Python标准库 BeautifulSoup(markup, “html.parser”) Python的内置标准库、执行速度适中 、文档容错能力强...
阅读(39) 评论(0)

四. 正则表达式的使用

正则表达式什么是正则表达式?定义:正则表达式是对字符操作的一种逻辑公式,就是用事先定义好的一些特定的字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串” 用来表达对字符的一种过滤逻辑。 非Python独有,re模块实现样例展示推荐网址 [http://tool.oschina.net/regex/#]在线正则表达式测试,并且有相关提取规则可以直接使用。规则讲解 模式 描述...
阅读(34) 评论(0)

三. Requests库的基本使用

Requests库的基本使用Requests库的基本使用 Requests 是用Python语 编写,基于urllib,采用Apache2 Licensed 开源协议的 HTTP 库。  它比urllib更加方便,可以节约我们大量的事件,完全满足HTTP 测试需求。  简而言之——Rquest库是Python实现的简单的HTTP库。实例引入import requestsresponse = re...
阅读(104) 评论(0)

二. Urllib库详解

Urllib库的详解什么是Urllib? urllib.request 请求模块 urllib.error 异常处理模块 urllib.parse url解析模块 urllib.robotparser robots.txt解析模块 相比Python2变化Python2:import urllib2 response=urllib2.urlopen("http://www.baidu.com")...
阅读(54) 评论(0)

一. 什么是爬虫

爬虫入门第一节什么是爬虫?爬虫就是请求网站并提取数据的自动化程序。爬虫的基本流程 发起请求。通过HTTP库向目标站点发起请求。即发送一个request请求,请求可以包含额外的headers等信息,等待服务器响应。 获取相应内容。如果服务器正常响应,遇到一个response对象,response的内容就是所要获取的网页内容。 解析内容。得到的内容可能是HTML。可以通过正则表达式,网页解析器进行解析。...
阅读(118) 评论(0)

Ubuntu 17.04 无线网络不能连接解决方法

Ubuntu 17.04 无线网络不能连接解决方法出于隐私原因,默认设置的Ubuntu的网络管理器(所有的桌面,不只是Gone)导致MAC地址的设备不断变化导致连接不上WiFi。要修复此问题,需要编辑配置文件,然后重启网络管理器。打开一个终端并运行:sudo -s gedit /etc/NetworkManager/NetworkManager.conf要注意大小写! 在该文件的底部,复制粘贴如下...
阅读(120) 评论(0)

欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦: Markdown和扩展Markdown简洁的语法 代码块高亮 图片链接和图片上传 LaTex数学公式 UML序列图和流程图 离线写博客 导入导出Markdown文件 丰富的快捷键 快捷键 加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl...
阅读(35) 评论(0)
    个人资料
    • 访问:554次
    • 积分:85
    • 等级:
    • 排名:千里之外
    • 原创:0篇
    • 转载:0篇
    • 译文:0篇
    • 评论:0条
    文章存档