Java实现Excel文件导入导出(三)

(一)读写Excel文件的几种常用方式 POI JXL FESTEXCEL 1.POI简介 APache POI是Apache软件基金会开放源码函式库,POI提供API实现对Microsoft Office格式文档进行读写。HSS是Horrible SpreadSheet Fo...

2018-03-28 21:57:50

阅读数:34

评论数:0

Python 解决Ajax动态加载问题(二十六)

(一)Ajax基础 1.简介 AJAX = Asynchronous JavaScript and XML(异步的 JavaScript 和 XML) AJAX 不是新的编程语言,而是一种使用现有标准的新方法 AJAX 是与服务器交换数据并更新部分网页的艺术,在不重新加载整个页面的情况下...

2018-03-20 14:07:32

阅读数:653

评论数:0

Python 验证码登陆处理(二十五)

(一)登陆验证码问题 使用Python爬取网页内容时往往会遇到使用验证码登陆才能访问其网站,不同网站的使用的验证码也不同比如:内容验证码、滑动验证码、图片拼接验证码等等。对于内容验证码我们可以使用Tesseract识别其内容实现自动登陆,但是Tesseract也有缺陷对于图片不清晰、字体不标准识...

2018-03-17 11:08:43

阅读数:208

评论数:0

Python 使用Tesseract库识别验证(二十四)

(一)Tesseract简介 Tesseract是一个OCR库(OCR是英文Optical Character Recognition的缩写),它用来对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程,Tesseract是目前公认最优秀,识别相对精准的OCR库。 (二)T...

2018-03-16 22:06:13

阅读数:152

评论数:0

Python XPath解析器的使用(二十三)

(一)XPath基础知识 XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。 W3School官方文档:http://www.w3school.com.cn/xpath/index.asp 1.XPa...

2018-03-14 22:31:40

阅读数:253

评论数:0

Python 使用Selenium获取斗鱼直播主播数据(二十二02)

(一)抓取网页的三种形式 1.抓取静态网页数据,只需要遍历url就可获取各网页的数据。比如: 2.抓取动态网页数据就是获取json格式数据,因此只需要遍历json数据对应的url从而获取json数据。比如: 3.对于一些静态网页请求参数加密或请求参数过多,为了获取网页数据往往使用...

2018-03-14 20:23:08

阅读数:153

评论数:0

Python 爬虫基础Selenium库的使用(二十二01)

(一)Selenium基础 入门教程:Selenium官网教程 1.Selenium简介 Selenium是一个用于测试网站的自动化测试工具,支持各种浏览器包括Chrome、Firefox、Safari等主流界面浏览器,同时也支持phantomJS无界面浏览器。 ...

2018-03-07 21:50:29

阅读数:9736

评论数:1

Python 爬虫基础Requests库的使用(二十一)

(一)人性化的Requests库 在Python爬虫开发中最为常用的库就是使用Requests实现HTTP请求,因为Requests实现HTTP请求简单、操作更为人性化。 参考资料:快速上手—Requests 登陆操作:模拟登录知乎 (二)get请求的基本用法 def get(u...

2018-03-05 16:42:22

阅读数:1109

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭