技术互动
J__333
这个作者很懒,什么都没留下…
展开
-
网络爬虫--头条街拍美女
import reimport requestsimport jsonimport osfrom urllib import requestheaders = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.33...原创 2018-08-16 22:16:00 · 415 阅读 · 0 评论 -
Scrapy爬虫框架 介绍
一、Scrapy框架简介Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了 页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。二、架构流程图接下来的图表展现了S...原创 2018-08-29 08:35:12 · 281 阅读 · 0 评论 -
爬虫框架
一、python爬虫框架一些爬虫项目的半成品二、常见python爬虫框架(1)Scrapy:很强大的爬虫框架,可以满足简单的页面爬取(比如可以明确获知url pattern的情况)。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面,如weibo的页面信息,这个框架就满足不了需求了。(2)Crawley: 高速爬取对应网站的内容,支持关系和非关系数据库,...原创 2018-08-28 10:44:41 · 580 阅读 · 0 评论 -
电影天堂获取电影
from urllib import requestimport reimport pymysqldb = pymysql.connect(host='127.0.0.1', user='root', password='123456', port=3306, database='xueqiu')cursor = db.cursor()for i in range(3): url...原创 2018-08-23 21:38:57 · 12814 阅读 · 0 评论 -
利用selenium模拟浏览器登录豆瓣并且自动识别验证码(在需要验证码登录的情况下)
from selenium import webdriverimport timeimport requestsfrom lxml import etreeimport base64# 操作浏览器driver = webdriver.Chrome()url = 'https://accounts.douban.com/login?alias=&redir=https%3A%...原创 2018-08-23 21:36:20 · 461 阅读 · 0 评论 -
爬虫--进程与线程 实现图片下载
import requestsfrom lxml import etreeimport osdef download_img(img_url_referer_url): print("快到碗里来!") (img_url, referer) = img_url_referer_url print('Downloading ......' + img_url) ...原创 2018-08-20 21:38:36 · 159 阅读 · 0 评论 -
进程与线程的定义
进程狭义定义*:*进程是正在运行的程序的实例(an instance of a computer program that is being executed)。 广义定义*:*进程是一个具有一定独立功能的程序关于某个数据集合的一次运行活动。它是操作系统动态执行的基本单元,在传统的操作系统中,进程既是基本的分配单元,也是基本的执行单元。 进程的概念主要有两点:第一,进程是一个实体。每一个进...原创 2018-08-20 19:48:59 · 222 阅读 · 0 评论 -
Scrapy的架构(爬虫框架)
这就是整个Scrapy的架构图了; 这里写图片描述Scrapy机构流程过程 Scrapy Engine》Spider Middlewares》Spiders》Scheduler 》Downloader Middlewares》Downloader》Spiders》Item PipelineScrapy Engine(引擎): 这是引擎,负责Spiders、ItemPipel...原创 2018-08-27 11:58:19 · 352 阅读 · 0 评论 -
自动识别获取ip爬取数据信息
from bs4 import BeautifulSoupimport requestsimport ip_proxyfrom urllib import parseheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) C...原创 2018-08-22 22:50:02 · 583 阅读 · 0 评论 -
python实现各类常见加密方式
前言我们所说的加密方式,都是对二进制编码的格式进行加密的,对应到Python中,则是我们的Bytes。所以当我们在Python中进行加密操作的时候,要确保我们操作的是Bytes,否则就会报错。将字符串和Bytes互相转换可以使用encode()和decode()方法。如下所示:# 方法中不传参数则是以默认的utf-8编码进行转换In [1]: '南北'.encode()Out...原创 2018-09-10 22:43:14 · 1403 阅读 · 0 评论