![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
Mikaelemmmm
web开发工程师,喜欢研究各种技术
展开
-
python爬虫之Beautiful Soup从安装到详细使用
1. Beautiful Soup的简介简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下: Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。转载 2017-07-15 12:13:45 · 319 阅读 · 0 评论 -
python简单爬虫开发(urllib2、requests + BeautifulSoup)
#一、网页内容下载#1、urllib(python2中的urllib2在python3中被整合到一起了urllib)下载网页方法1:最简洁方法from urllib import request,parse#直接请求with request.urlopen('http://www.baidu.com') as f: #python2中:urllib2.urlopen data原创 2017-07-15 19:54:13 · 366 阅读 · 0 评论 -
scray中的Request 不执行回调
在 scrapy 中,scrapy.Request(url, headers=self.header, callback=self.parse_detail)调试的时候,发现回调函数 parse_detail 没有被调用,这可能就是被过滤掉了,查看 scrapy 的输出日志 offsite/filtered 会显示过滤的数目。这个问题如何解决呢,查看手册发现(https://doc.原创 2017-08-08 18:04:10 · 1448 阅读 · 0 评论 -
scrapy 安装到基础使用(包含爬取jobbole文章)
# -*- coding: utf-8 -*-# author : seven# time : 2017/7/21#1、安装scrapy,用国内豆瓣镜像:pip install -i https://pypi.douban.com/simple/ scrapy#2、新建scrapy项目:scrapy startproject ArticleScripy#3、新建工程cd A原创 2017-08-06 22:07:23 · 674 阅读 · 0 评论 -
安装sacrapy错误解决 error: Microsoft Visual C++ 10.0 is required.
win10 64位python3.4 使用pip install scrapy安装scrapy的时候出现错误error: Microsoft Visual C++ 10.0 is required. Get it with "Microsoft Windows SDK 7.1": www.microsoft.com/download/details.aspx?id=8279原创 2017-08-17 19:15:32 · 890 阅读 · 0 评论 -
scrapy 的crawl模板模拟登陆
##替换原来的start_requests,callback为def start_requests(self): return [Request("http://www.zhihu.com/#signin", meta = {'cookiejar' : 1}, callback = self.post_login)]def post_login(self, response):原创 2017-08-12 22:45:35 · 929 阅读 · 0 评论 -
scrapy的basic模板模拟登录、requests模拟登录
#一、通过requests模拟知乎登录# -*- coding: utf-8 -*-# author : seven# time : 2017/7/21import requestsimport refrom bs4 import BeautifulSouptry: import http.cookiejar as cookielib # python3except:原创 2017-08-08 17:47:36 · 911 阅读 · 0 评论 -
爬虫接口数据抓去,下载图片
# -*- encoding = utf-8 -*-import requestsfrom urllib.parse import quoteimport threadingthreading_lock = threading.BoundedSemaphore(value=1)kw = '校花'kw = quote(kw)#https://www.duitang.com/na原创 2017-08-05 12:24:43 · 699 阅读 · 0 评论 -
selenium与selenium在scrapy中的集成
from selenium import webdriverfrom scrapy.selector import Selectorimport time#1、selenium获取页面元素# browser = webdriver.Chrome(executable_path="D:/browserexe/chromedriver.exe")# browser.get("https:/原创 2017-08-21 14:58:52 · 6543 阅读 · 1 评论