![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
三千淼淼
这个作者很懒,什么都没留下…
展开
-
scrapy爬虫框架之理解篇
提问: 为什么使用scrapy框架来写爬虫 ? 在python爬虫中:requests + selenium 可以解决目前90%的爬虫需求,难道scrapy 是解决剩下的10%的吗?显然不是。scrapy框架是为了让我们的爬虫更强大、更高效。接下来我们一起学习一下它吧。 1.scrapy 的基础概念: scrapy 是一个为了爬取网站数据,提取结构...原创 2018-09-04 19:31:40 · 276 阅读 · 0 评论 -
爬取mzitu图 线程 进程
import requestsfrom lxml import etreeimport osdef download_img(img_url_referer_url): # print("fuck, 你还来不来") (img_url, referer) = img_url_referer_url print('Downloading ......' + img_u...原创 2018-08-21 20:22:43 · 2669 阅读 · 0 评论 -
Python Scrapy爬虫框架学习
一、Scrapy框架简介Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了 页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。二、架构流程图接下来的图表展...转载 2018-08-28 20:38:52 · 277 阅读 · 0 评论 -
selenium 豆瓣登录
from selenium import webdriverimport timeimport requestsfrom lxml import etreeimport base64# 操作浏览器driver = webdriver.Chrome()url = 'https://accounts.douban.com/login?alias=&redir=https%3A...原创 2018-08-27 12:00:03 · 533 阅读 · 0 评论 -
dytt 爬取磁力链接保存mysql
import requests,reimport pymysql# 连接数据库class mysqlhelp(): def __init__(self): self.db = pymysql.connect(host='127.0.0.1', user='root', password='123456', port=3306, database='py10',...原创 2018-08-19 23:12:57 · 4366 阅读 · 0 评论 -
今日头条 json 街拍 baocun
import reimport requestsimport jsonimport osfrom urllib import requesturl = 'https://www.toutiao.com/search_content/?offset=0&format=json&keyword=%E8%A1%97%E6%8B%8D&autoload=true&a...原创 2018-08-16 22:47:35 · 326 阅读 · 0 评论 -
链家 xpath
调用封装mysql 保存链家前三页import requests,refrom lxml import etreeimport mysqlhelpbase_url = 'https://bj.lianjia.com/zufang/pg%srp1/'myhelp = mysqlhelp.mysql_conn()sql = 'INSERT INTO lianjia (titl...原创 2018-08-17 21:22:53 · 309 阅读 · 0 评论 -
淘宝 商品爬取并存到mysql
新建爬虫项目 tb.py# -*- coding: utf-8 -*-import scrapy,jsonfrom taobao.items import TaobaoItemclass TbSpider(scrapy.Spider): name = 'tb' allowed_domains = ['taobao.com'] start_urls = ['...原创 2018-09-03 18:55:07 · 923 阅读 · 0 评论