Python 解决Ajax动态加载问题(二十六)

(一)Ajax基础 1.简介 AJAX = Asynchronous JavaScript and XML(异步的 JavaScript 和 XML) AJAX 不是新的编程语言,而是一种使用现有标准的新方法 AJAX 是与服务器交换数据并更新部分网页的艺术,在不重新加载整个页面的情况下...

2018-03-20 14:07:32

阅读数:619

评论数:0

Python 验证码登陆处理(二十五)

(一)登陆验证码问题 使用Python爬取网页内容时往往会遇到使用验证码登陆才能访问其网站,不同网站的使用的验证码也不同比如:内容验证码、滑动验证码、图片拼接验证码等等。对于内容验证码我们可以使用Tesseract识别其内容实现自动登陆,但是Tesseract也有缺陷对于图片不清晰、字体不标准识...

2018-03-17 11:08:43

阅读数:198

评论数:0

Python 使用Tesseract库识别验证(二十四)

(一)Tesseract简介 Tesseract是一个OCR库(OCR是英文Optical Character Recognition的缩写),它用来对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程,Tesseract是目前公认最优秀,识别相对精准的OCR库。 (二)T...

2018-03-16 22:06:13

阅读数:146

评论数:0

Python XPath解析器的使用(二十三)

(一)XPath基础知识 XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。 W3School官方文档:http://www.w3school.com.cn/xpath/index.asp 1.XPa...

2018-03-14 22:31:40

阅读数:247

评论数:0

Python 使用Selenium获取斗鱼直播主播数据(二十二02)

(一)抓取网页的三种形式 1.抓取静态网页数据,只需要遍历url就可获取各网页的数据。比如: 2.抓取动态网页数据就是获取json格式数据,因此只需要遍历json数据对应的url从而获取json数据。比如: 3.对于一些静态网页请求参数加密或请求参数过多,为了获取网页数据往往使用...

2018-03-14 20:23:08

阅读数:150

评论数:0

Python 爬虫基础Selenium库的使用(二十二01)

(一)Selenium基础 入门教程:Selenium官网教程 1.Selenium简介 Selenium是一个用于测试网站的自动化测试工具,支持各种浏览器包括Chrome、Firefox、Safari等主流界面浏览器,同时也支持phantomJS无界面浏览器。 ...

2018-03-07 21:50:29

阅读数:9484

评论数:1

Python 爬虫基础Requests库的使用(二十一)

(一)人性化的Requests库 在Python爬虫开发中最为常用的库就是使用Requests实现HTTP请求,因为Requests实现HTTP请求简单、操作更为人性化。 参考资料:快速上手—Requests 登陆操作:模拟登录知乎 (二)get请求的基本用法 def get(u...

2018-03-05 16:42:22

阅读数:1089

评论数:0

Python 爬虫基础urllib的使用(二十)

(一)爬虫基础 慕课数据采集学习视频 爬虫基本原理: 1.挑选种子URL; 2.将这些URL放入待抓取的URL队列; 3.取出待抓取的URL,下载并存储进已下载网页库中。此外,将这些URL放入待抓取URL队列,进入下一循环; 4.分析已抓取队列中的URL,并且将URL放入待抓...

2018-02-27 14:32:51

阅读数:162

评论数:0

Python Pandas数据科学入门实例演示(十九02)

(一)Python中的pandas模块进行数据分析。 数据结构简介:DataFrame和Series 数据索引index 利用pandas查询数据 利用pandas的DataFrames进行统计分析 利用pandas实现SQL操作 利用pandas进行缺失值的处理 利用pandas实现Exce...

2018-02-26 17:43:07

阅读数:123

评论数:0

Python Pandas数据科学入门(十九01)

(一)Pandas简介 Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处...

2018-02-15 15:15:43

阅读数:160

评论数:0

Python 生成词云图(十八)

(一)下载第三方模块 1.wordcloud:它把我们带权重的关键词渲染成词云。 2.jieba:是一个分词模块,因为我是从一个txt文本里提取关键词,所以需要 jieba 来分词并统计词频。如果是已经有了现成的数据,不再需要它。 pip install wordcloud p...

2018-02-07 14:32:49

阅读数:1285

评论数:0

Python BeautifulSoup实例演示(十七02)

(一)常见的网页解析方法比较 正则表达式使用比较困难,学习成本较高 BeautifulSoup 性能较慢,相对于 Xpath 较难,在某些特定场景下有用 Xpath 使用简单,速度快(Xpath是lxml里面的一种),是入门最好的选择 (二)BeautifulSoup解析html表格 ...

2018-02-04 14:18:10

阅读数:81

评论数:0

Python BeautifulSoup基础总结(十七01)

(一)BeautifulSoup4简介 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库,它能够通过你喜欢的转换器实现惯用的文档导航、查找、修改文档的方式。Beautiful Soup会帮你节省数小时甚至数天的工作时间。 使用BeautifulSou...

2018-02-02 17:41:52

阅读数:98

评论数:0

Python xml.etree.ElementTree解析XML文件实例演示(十六02)

(一)country_data.xml data name="Kaina" age="18"> country name="列支敦斯登"> rank>1rank> yea...

2018-01-27 15:21:46

阅读数:134

评论数:0

Python xml.etree.ElementTree解析XML文件(十六01)

(一)简介 xml.etree.ElementTree模块实现了一个简单而高效的API用于解析和创建XML数据。xml.etree.ElementTree模块对于恶意构造的数据是不安全的。如果您需要解析不受信任或未经验证的数据,请参阅XML漏洞。 参考文献:https://docs.pytho...

2018-01-26 21:26:52

阅读数:1394

评论数:0

Python 操作Excel文件 (十五)

(一)简介 python操作excel主要用到xlrd和xlwt这两个库,即xlrd是读excel,xlwt是写excel的库。可从这里下载https://pypi.python.org/pypi。下面分别记录python读和写excel。 安装xlrd和xlwt两个库 pip ...

2018-01-24 19:20:16

阅读数:182

评论数:0

Python 连接MySQL数据库实现CRUD操作(十四)

(一)安装pymysql模块 Python没有内置的MySQL支持工具,但是有许多开源库支持与MySQL交互,Python2.x和Python3.x本版都支持。最有名的就是PyMySQL库。 在DOS窗口输入以下命令 pip install pymysql 知识点1 1.获取...

2018-01-23 21:48:01

阅读数:133

评论数:0

Python处理JSON格式的文件(十三)

(一)JSON 数据格式 1.JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式。JSON采用完全独立于语言的文本格式,这些特性使JSON成为理想的数据交换语言。易于人阅读和编写,同时也易于机器解析和生成。 2.JSON数据格式是数据传输...

2018-01-23 16:15:05

阅读数:232

评论数:0

Python 正则表达式的应用(十二)

(一)正则表达式概述 1.定义 正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些匹配某个模式的文本。在 需要通过正则表达式对字符串进行匹配的时候,Python提供了一个re模块,我们通过这个模块来操作字符串。 ...

2018-01-22 21:05:38

阅读数:101

评论数:0

Python 将JSON格式文件进行数据可视化制作世界人口地图(十一)

(一) 制作世界人口地图:JSON格式 下载JSON格式的人口数据,并使用json模块来处理它,Pygal提供一个适合初学者使用的地图创建工具,使用它来对人口数据进行可视化,用来探索全球人口的分布情况。 1.下载世界人口数据地址:https://ehmatthes.github.io/...

2018-01-17 17:06:06

阅读数:3034

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭