爬虫
Lawliet_ZMZ
ACMERandNODER
展开
-
爬href链接
121a = ' I am a link 'soup2 = BeautifulSoup(a,'html.parser')print(soup2.select('a')[0]['href'])print(soup2.select('a')[0]['abc'])存储是以字典形式存储输出#456后序待补充原创 2017-04-07 21:03:43 · 782 阅读 · 0 评论 -
爬新浪国内新闻网的某个新闻的评论
用开发人员工具右键检查“评论”的元素看到的只是一行span的代码,爬不到具体的评论内容。这时候猜想应该是通过JS增加上去的。我们通过寻找JS文件,可以找到然后点到header看获得方式为get和URL地址原创 2017-04-21 21:11:04 · 442 阅读 · 0 评论 -
Java jsoup多线程爬虫(爬豆瓣图书封面)
Java的第一个爬虫,就先爬个好爬的豆瓣读书的封面。用的是第三方库jsoup,也有其他的比如WebMagic之类的利用线程池多线程爬,biubiubiu,速度超快。下载到指定的文件夹中。App.java:package com.zmz.spider;import java.io.IOException;import java.util.co原创 2017-09-23 09:46:29 · 981 阅读 · 0 评论 -
Node 简单爬虫
以爬慕课网Hadoop进阶课程为例,用Node写一个简单的爬虫:先抓取这个网站的源码:var http = require('http');var url = 'http://www.imooc.com/learn/890';http.get(url, function(res) { var html = ''; res.on('data', functio原创 2017-09-24 18:25:30 · 324 阅读 · 0 评论 -
Node爬虫 爬博客园
博客园右边有一个“找找看”的索引窗口,我们输入关键词,可以查到几万篇的相关的博客,这里用Node的爬虫来抓取给定关键词的查询的特定内容,实现翻页功能,抓取文章链接,作者,发布日期等信息。Node适合高并发IO操作的程序,用来写爬虫速度最快了。这里我们把爬到的数据存储到数据库中。前奏:1.cheerio模块 ,一个类似jQuery的选择器模块,分析HTML利器。2.r原创 2017-10-19 13:34:15 · 501 阅读 · 2 评论 -
Node异步爬虫引出的异步流程控制的一些问题
前记: 想写一个电影天堂的爬虫,因为node很长时间落下,就想用node去写一下。结果遇到了一些列的问题,这些问题归根到底就是异步流程控制的问题,在以前就一直会接触到很多回调地狱,Promise为什么会出现诸如此类的话题,现在终于是深刻体会到了!开始的代码是:const cheerio = require('cheerio');const http = require('http'...原创 2018-06-27 17:13:04 · 430 阅读 · 0 评论