爬虫
Fighting_No1
这个作者很懒,什么都没留下…
展开
-
(11)Java爬虫框架webmagic实战
Java爬虫框架webmagic实战本文是我关于webmagic爬虫框架的实战——爬取古诗词网站的诗词数据。此代码只用于爬虫学习,勿用于商业用途。安装webmagicwebmagic使用maven管理依赖,在项目中添加对应的依赖即可使用webmagic:<dependency> <groupId>us.codecraft</groupId> ...原创 2018-12-15 14:56:38 · 730 阅读 · 0 评论 -
(10)Java爬虫框架webmagic学习笔记
Java爬虫框架webmagic学习笔记参考自:webmagic文档webmagic的主要特色:完全模块化的设计,强大的可扩展性。核心简单但是涵盖爬虫的全部流程,灵活而强大,也是学习爬虫入门的好材料。提供丰富的抽取页面API。无配置,但是可通过POJO+注解形式实现一个爬虫。支持多线程。支持分布式。支持爬取js动态渲染的页面。无框架依赖,可以灵活的嵌入到项目中去。总体架构...原创 2018-12-15 14:15:53 · 525 阅读 · 0 评论 -
(4)正则表达式——Python
Python中正则表达式的一些匹配规则:正则表达式相关注解(1)数量词的贪婪模式与非贪婪模式正则表达式通常用于在文本中查找匹配的字符串。Python里数量词默认是贪婪的,总是尝试匹配尽可能多的字符;非贪婪的则相反,总是尝试匹配尽可能少的字符。例如:正则表达式”ab*”如果用于查找”abbbc”,将找到”abbb”。而如果使用非贪婪的数量词”ab*?”,将找到”a”。注:我们...原创 2018-08-24 20:45:04 · 327 阅读 · 0 评论 -
(2)获取网页源代码——Python
Python版:超级简短#!/usr/bin/python#-*- coding: utf-8 -*-import urllib2response = urllib2.urlopen("http://www.baidu.com")print response.read()POST方式:#!/usr/bin/python#-*- coding: utf-8 -*-impor...原创 2018-08-24 19:41:20 · 1118 阅读 · 0 评论 -
(7)Python爬虫——爬取豆瓣电影Top250
利用python爬取豆瓣电影Top250的相关信息,包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容,然后将爬取的信息写入Excel表中。基本上爬取结果还是挺好的。具体代码如下:#!/usr/bin/python#-*- coding: utf-8 -*-import sysreload(sys)sys.setdefaulten原创 2016-03-18 19:22:31 · 19066 阅读 · 20 评论 -
(8)Python爬虫——爬取豆瓣影评数据
利用python爬取豆瓣最受欢迎的影评50条的相关信息,包括标题,作者,影片名,影片详情链接,推荐级,回应数,影评链接,影评,有用数这9项内容,然后将爬取的信息写入Excel表中。具体代码如下:#!/usr/bin/python#-*- coding: utf-8 -*-import sysreload(sys)sys.setdefaultencoding('utf8')from bs4原创 2016-03-18 19:30:31 · 21933 阅读 · 6 评论 -
(9)Python爬虫——下载PDF
利用python读取Excel中的url链接,读取url网页内容,下载里面的pdf文件到本地。 Excel原始内容如下: 第三列的数据即url链接,是Hyperlink函数,由于python读取该Excel内容,第三列显示的是如上的文字,而不是文字指向的链接,所以我们需要对Excel做初步处理。 把hyperlink函数内的链接地址提取出来的方法:将含有hyperlink函数的超链接那一列,利原创 2016-03-18 22:32:34 · 3936 阅读 · 0 评论 -
(6)Python爬虫——爬取中新网新闻
工欲善其事,必先利其器。我们要进行数据挖掘,就必须先获取数据,获取数据的方法有很多种,其中一种就是爬虫。下面我们利用Python2.7,写一个爬虫,专门爬取中新网http://www.chinanews.com/scroll-news/news1.html滚动新闻列表内的新闻,并将新闻正文保存在以新闻类别命名的文件夹下的以该新闻的发布日期和顺序命名的文本中。具体代码如下:#!/usr/bin/pyt原创 2016-03-18 19:13:37 · 7228 阅读 · 4 评论 -
(5)正则表达式——Java
import java.util.regex.Matcher;import java.util.regex.Pattern;public class ReTest { //正则表达式的用处: public static void main(String args[]){ //1、在字符串包含验证时matches() //查找以Java开头,任意字符结原创 2016-03-08 16:51:16 · 462 阅读 · 0 评论 -
(1)获取网页源代码——Java
Java版:简单获取编码格式为UTF-8的网页内容import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.net.MalformedURLException;import java.net.URL; import java.n原创 2016-03-08 16:45:40 · 1848 阅读 · 0 评论 -
(3)下载网络文件
Java版:import java.io.File;import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStream;import java.net.HttpURLConnection;import java.net.MalformedURLException;import java原创 2016-03-08 16:50:24 · 613 阅读 · 0 评论 -
基于selenium+scrapy爬取复仇者联盟4豆瓣影评数据
基于selenium+scrapy爬取复仇者联盟4豆瓣影评数据参考资料:黑马程序员爬虫教程静觅爬虫教程mac下anaconda安装selenium+PhantomJSscrapy下载中间件结合selenium抓取全国空气质量检测数据使用xpath的轴(Axis)进行元素定位以下内容只用于学习使用,请勿用于商业用途.五一放假看了《复仇者联盟4》,对影片内容不是很懂,所以写个爬虫,...原创 2019-05-03 12:57:30 · 1955 阅读 · 0 评论