自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

qq_40861391的博客

人生苦短,我学Python

  • 博客(12)
  • 收藏
  • 关注

原创 python装饰器

第一: 简单的装饰器 def deco(func): print('before myfunc() called.') func() print('after myfunc() called') return func @deco def myfunc(): print('myfunc() called') myfunc() myfunc() 理解...

2018-06-28 15:19:30 133

原创 python 集合

python3 集合 什么是集合 集合(set)是一个无序不重复的序列,集合里的元素是不能重复的 集合的创建 . 使用大括号{ }创建集合 basket = {'apple','orange','apple','pear','basket'} set()函数创建集合,创建一个空的集合必须使用set()函数 a = set('abcdabcadsbasda') # 创建一个空...

2018-06-26 14:55:09 139

原创 pandas

pandas 导入pandas: # 数据分析有三剑客,三个模块 import numpy as np import pandas as pd from pandas import Series,DataFrame # 前两个属于数据分析,展示数据,画图,一图顶千言 import matplotlib.pyplot as plt # 如果大家用的自己的ubuntu或者用的window...

2018-06-13 20:06:13 240

原创 numpy初识

什么叫numpy NumPy系统是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多(该结构也可以用来表示矩阵(matrix)) NumPy(Numeric Python)提供了许多高级的数值编程工具,如:矩阵数据类型、矢量处理,以及精密的运算库。专为进行严格的数字处理而产生。多为很多...

2018-06-12 19:58:43 250

原创 scrapy爬虫爬取动态网站

爬取360图片上的美女图片 360图片网站上的图片是动态加载的,动态加载 就是通过ajax请求接口拿到数据喧染在网页上。我们就可以通过游览器的开发者工具分析,在我们向下拉动窗口时就会出现这么个请求,如图所示: 所以就判定这个url就是ajax请求的接口:,http://image.so.com/zj?ch=beauty&sn=30&listtype=new&temp...

2018-06-08 22:55:00 9984 1

原创 第一个scrapy爬虫

scrapy目录结构如下 我们要爬取的是读书网里面的书名,作者,和对书的描写 首先我们要定义爬取数据的模型,在items.py文件中 import scrapy class MoveItem(scrapy.Item): # 定义爬取的数据的模型 title = scrapy.Field() auth = scrapy.Field() desc = ...

2018-06-06 20:01:52 246

原创 scrapy 爬虫框架简介

scrapy介绍 Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。 Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。 ...

2018-06-06 14:09:28 329

原创 并发编程

并发和并行 并行: 并行指的是两个或对个事件在同一时刻发生 并行是在不同实体上的多个事件 在同一台处理器上‘’同时”处理多个任务 并发: 指的是两个或多个事件在同一时间间隔发生 并发是在同一实体上的多个事件 在多台处理器上同时处理多个任务 并发编程 多线程 + GIL + 共享内存 多进程 + IPC(socket/pipe ) 多进程 + 微线程(协程) 单...

2018-06-04 19:18:13 144

转载 python中decode和encode的区别

#-*-coding:utf-8 import sys ''' *首先要搞清楚,字符串在Python内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码, 即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码。 decode的作用是将其他编码的字符串转换成unicode编码,如str1.decode('...

2018-06-03 21:21:35 442 1

原创 python 爬虫之模拟简单表单提交

为什么要模拟表单提交 现在许多的网站都是需要登录验证后才能访问该网站的页面,爬虫(网络机器人【spider】)该怎么获取这些页面呢!是的,爬虫也是需要登录的,才能获取到后面的页面。 爬虫怎么模拟表单登录 复杂的办法,先爬取登录界面,得到登录表单需要的数据 import requests from bs4 import BeaytifulSoup def main(): r...

2018-06-02 16:06:33 8602 2

原创 抓取动态页面

导入一个selenium模块 pip install selenium 抓取淘女郎网站的动态生成的图片: from selenium import webdriver from bs4 import BeautifulSoup def main(): driver = webdriver.Chrome() driver,get('https://v.taobao.co...

2018-06-01 19:30:03 283

原创 面向对象的爬虫,程序更加优雅

爬取http://m.sohu.com的url 和页面 import pickle import zlib from enum import Enum, unique from hashlib import sha1 from random import random from threading import Thread, current_thread from time import ...

2018-06-01 09:53:41 1589

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除