爬虫
谁说大象不能跳舞
喜欢极客,爱好跑步,天生无极限
展开
-
编辑距离(同源去重算法)
原理:表示将串s[ 1…i ] 转换为 串t [ 1…j ]所需要的最少步骤个数。(以下方框中的数字就表示的步骤数)step 1:初始化如下矩阵 step 2:从源串的第一个字符(“j”)开始,从上至下与目标串进行对比,如果两个字符相等,则在从此位置的左,上,左上三个位置中取出最小的值;若不等,则在从此位置的左,上,左上三个位置中取出最小的值再加上1; 第一次,源串第一个字符“j” 与目标串的“原创 2017-03-24 12:46:33 · 890 阅读 · 0 评论 -
爬虫使用xpath解析(并保存成固定格式的文件)
爬取广西壮族自治区博物馆import requests# from bs4 import BeautifulSoupimport urllibfrom lxml import etreeimport timeimport reurl = 'http://www.gxmuseum.cn/plus/guestbook.php?gotopagerank=&totalresult=...原创 2019-05-08 08:44:19 · 852 阅读 · 0 评论 -
爬虫使用soup解析(并保存成固定格式文件)
爬取安徽省博物馆:import requestsfrom bs4 import BeautifulSoupurl = 'http://www.ahm.cn/Service/Leaveword/zxzx#page='def get_info(url, data=None): wd_data = requests.get(url) soup = BeautifulSoup(...原创 2019-05-08 08:42:57 · 855 阅读 · 0 评论 -
爬取的网页翻页是js的(构造post请求,ajax 异步刷新的, 只抓ajax调用的接口就行),然后保存固定格式
import requestsimport jsonfrom lxml import etreeimport time'''注意,河北省博物馆这个网站。从第二页开始是这样匹配的replys = '///*[@class="liuyantiaotaio t110"]/tr/td[2]/p/span/text()'第一页的回复语句replys = '///*[@class="liuyan...原创 2019-05-08 15:58:29 · 1198 阅读 · 0 评论 -
爬取京东图片
headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'}def req_tieba_img(url,page): html ...原创 2018-06-13 23:42:59 · 454 阅读 · 1 评论 -
单机下进行分布式爬取数据(windows下单机模拟多机进行分布式爬虫)
URL管理器ControlNode/ URLManager.py#coding:utf-8import cPickleimport hashlibclass UrlManager(object): def __init__(self): self.new_urls = self.load_progress('new_urls.txt')#未爬取URL集合 ...原创 2018-02-26 09:12:22 · 1129 阅读 · 0 评论 -
python爬取知乎(模拟登陆)
zhihu.py# -*- coding: utf-8 -*-__author__ = 'bobby'import requeststry: import cookielibexcept: import http.cookiejar as cookielibimport resession = requests.session()session.cookie...原创 2018-03-15 22:39:05 · 709 阅读 · 0 评论 -
scrapy爬取jobbole
\ArticleSpider\spiders\jobbole.py(爬虫下的代码)# -*- coding: utf-8 -*-import scrapyimport refrom scrapy.http import Requestfrom urllib import parsefrom ..items import JobboleArticleItem,ArticleItemLo...原创 2018-03-15 19:56:55 · 458 阅读 · 0 评论 -
爬取动态网站数据(soup的css方式处理数据)
import requestsfrom bs4 import BeautifulSoupurl = 'https://knewone.com/discover?page='def get_info(url,data=None): wd_data = requests.get(url) soup = BeautifulSoup(wd_data.text,'lxml')原创 2018-02-05 11:52:55 · 841 阅读 · 0 评论 -
常用的 Python 爬虫技巧总结
python也差不多一年多了,python应用最多的场景还是web快速开发、爬虫、自动化运维:写过简单网站、写过自动发帖脚本、写过收发邮件脚本、写过简单验证码识别脚本。爬虫在开发过程中也有很多复用的过程,这里总结一下,以后也能省些事情。1、基本抓取网页get方法import urllib2url = “http://www.baidu.com” response = urll原创 2018-02-04 18:04:33 · 164 阅读 · 0 评论 -
新浪微博爬虫分享(一天可抓取 1300 万条数据)
爬虫功能:转载请注明出处,谢谢!(原文链接:http://blog.csdn.net/bone_ace/article/details/50903178)转载 2018-02-04 17:55:11 · 2068 阅读 · 0 评论 -
爬取多页视频并保存本地
#注意事项,记得这地视频地址是隐藏的,要在浏览器中打开源码import urllib.requestimport urllibimport redef getVideo(page): url = "http://www.budejie.com/video/%s" req = urllib.request.build_opener() headers=("User-Age原创 2018-02-04 17:16:34 · 1203 阅读 · 1 评论 -
爬取单页视频
爬取单页视频import urllib.request import urllib import re url = “http://www.budejie.com/video” req = urllib.request.build_opener() headers=(“User-Agent”, “Mozilla/5.0 (Windows NT 10.0; Win原创 2018-02-04 16:46:17 · 343 阅读 · 0 评论 -
爬取盗墓笔记存放csv中
http://blog.sina.com.cn/s/blog_14b01dc3d0102x7nb.html原创 2018-02-04 14:56:42 · 219 阅读 · 0 评论 -
爬去图片并下载本地(非正则)bsf4处理
import urllib from bs4 import BeautifulSoupurl= “https://tieba.baidu.com/p/2772656630” def get_content(url): html = urllib.urlopen(url) content = html.read() html.close() retu原创 2018-02-04 14:55:10 · 238 阅读 · 0 评论 -
爬取新浪新闻(嵌套爬取,爬取子链接,然后每个子链接的详情页里面内容)
1.首先命令行输入: scrapy startproject newsSpider2.在spider文件夹下,建立Spider.py文件,具体如下:import osimport scrapyfrom ..items import NewsspiderItemclass newsSpider(scrapy.Spider): name = 'news' allowed_...原创 2019-08-07 17:33:07 · 1000 阅读 · 0 评论