python
benben0729
职业为猿的汪,爱好象、鼠、蛇、蛙
展开
-
scrapy项目基本使用
主题参考创智播客视频制定的笔记http://www.iqiyi.com/v_19rr8ahgw4.html#curid=764882600_53a7f394e1341b7d5c21922442855ca4selectors选择器,selector有四个基本的方法,最常用的还是XPathxpath()传入xpath表达式,返回该表达式所对应的所有节点的selector list列表extract()...原创 2018-05-14 21:34:42 · 838 阅读 · 0 评论 -
python:判断字符串是否为合法的json格式
在一些情况下,我们需要判断字符串是否为合法json格式。思路很简单:尝试对字符串使用json.loads(),如果不是合法json格式,则会抛出ValueError异常。 示例如下转https://blog.csdn.net/elecjack/article/details/51901054...转载 2018-07-02 09:32:04 · 10063 阅读 · 0 评论 -
python3 unicode字符转化成中文
在进行数据抓取的过程中,返回的数据是unicode类型想要转换成中文字符示例如下:先encode('utf8')再decode('utf8')原创 2018-06-11 10:35:05 · 3883 阅读 · 0 评论 -
python 连接mysql遇到的错误总结
在拼接sql语句时每条sql语句的结束应包含‘;’在插入数据时,每个字段值都应用引号括起来(字符类型的数据)原创 2018-06-01 16:04:23 · 1837 阅读 · 0 评论 -
peewee操作mysql
前期准备• 安装peewee,• pip3 install peewee• 在学习peewee之前先了解下ORM(Object Relational Mapping)对象关系映射,解决面向对象与关系数据库不匹配的技术。• peewee是一种轻量级的python ORM• 可以理解为MongoDB与NoSQL的关系• 在学习peewee时,发现其中大量使用了内部类,就重新补充了一下关于内部类的知识点...原创 2018-05-31 21:18:31 · 4586 阅读 · 0 评论 -
内部类调用实例
class Car:#外部类 class Door:#内部类 def open(self): print('open door') class Wheel: def run(self): print('car run') if __name__=="__mai...转载 2018-05-31 17:53:04 · 409 阅读 · 0 评论 -
内部类的分类和优势
内部类主要分为普通内部类、局部内部类、匿名内部类、嵌套内部类(静态内部类)。非静态内部类中不能定义静态成员,静态内部类不能访问外部类的非静态成员。1普通内部类(成员内部类)内部类与普通类的区别:1)内部类的名字是嵌套在外部类中的;2)外部类将有一个方法,该方法返回一个内部类的引用。 如果想从外部类的非静态方法之外的任意位置创建某个内部类的对象,那么必须以OuterClassName.I...转载 2018-05-31 17:51:31 · 323 阅读 · 0 评论 -
if __name__ == '__main__' 的理解
Python 中的 if __name__ == '__main__' 该如何理解Apr 24, 2017 | Python | python这个问题来自于知乎用户的提问,当时看到这个问题,我只是做了下简单的回答。后来我发现,对于很多人来说,更准确的说应该是大部分的 Python 初学者,对这个问题理解的不是很深刻。所以这里我来做下总结,并试图把这个问题说明白。程序入口对于很多编程语言来说,程...转载 2018-05-31 17:33:21 · 1285 阅读 · 0 评论 -
try...except...else
try except else是python用来捕捉和处理异常的语法在很多高级语言中都有类似的语法try..catch在代码中使用这种语法,可以帮助我们很好地调试代码下面就是简单说下执行的流程try: 正常的操作 ......................except: try中语句发生异常,执行这块代码 ......................else: ...原创 2018-05-31 11:27:57 · 1622 阅读 · 0 评论 -
python3操作mysql
python3操作mysql主题在python3中使用的是PyMySQL库来操作mysql,python2中使用的是mysqldb。在使用PyMySQL之前,需要先安装PyMySQL Pip3 install PyMySQL或者$ git clone https://github.com/PyMySQL/PyMySQL$ cd PyMySQL/$ python3 setup.py instal或者...原创 2018-05-30 21:17:40 · 1896 阅读 · 0 评论 -
使用python3+scrapy 抓取应用宝应用信息
创建Appstore工程 scrapy startproject Appstore 2. 生成spider文件 scrapy genspider appstore 'sj.qq.com' 3. 编写items.py文件 4. 编写appstore.py文件 6. 编写pipline.py文件7. 修改settings.py文件,开启管道 8. ...原创 2018-06-13 15:33:05 · 1053 阅读 · 1 评论 -
使用python3 启动scrapy
python3 -m scrapy crawl appstore(爬虫名)原创 2018-06-13 15:18:19 · 3759 阅读 · 1 评论 -
scrapy 框架之发送post请求
scrapy默认发送的是get请求发送post请求时需要重载原创 2018-06-26 10:20:15 · 5217 阅读 · 0 评论 -
logging日志配置
Python logging日志配置Python在引入logging日志模块时,需要对其进行配置使用logging.basicConfig()进行配置,在此类中调用其他包的方法都会使用该配置,其他类中无需再配置logging.basicConfig。logging默等级为WARNING (打印到屏幕的等级)日志级别大小关系为:CRITICAL > ERROR > WARNING >...原创 2018-07-12 16:27:27 · 5607 阅读 · 0 评论 -
request+xpath
原创 2018-07-05 14:30:13 · 1392 阅读 · 0 评论 -
python 引入上级目录,import
在工作中我们会遇到需要引入上级目录的文件,而在python中import是没有当前目录(./),上级目录(../)这种写法的我们可以通过引入sys模块来引入上级目录文件import syssys.path.append('../') #shortvideo是上级目录下的子目录from shortvideo.short_video import ShortVideosys.path的作用是:当使用i...原创 2018-07-11 19:39:31 · 3380 阅读 · 0 评论 -
requests模块下载视频demo
#!/usr/bin/env python3#-*- coding:utf8 -*-import requestsheader = {'User-Agent':'Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1;AvantBrowser)'}response = requests.get('https://aweme.snssdk.com/aweme/v1/p...原创 2018-07-11 14:27:25 · 4182 阅读 · 0 评论 -
request 模块 请求url保存视频demo
#!/usr/bin/env python3# coding=utf-8#from urllib.request import urlopen;from urllib import request;import ssl;ssl._create_default_https_context = ssl._create_unverified_contexturl='http://alimov2.a.yx...原创 2018-07-11 14:26:06 · 1220 阅读 · 0 评论 -
scrapy 中回调函数传递参数
首先举个例子说明下lambdafunc = lambda x,y: x+y然后执行func(3,5)输出为8当然也可以给出缺省参数func = lambda x=3,y=5: x+yfunc()输出为8然后在scrapy中原创 2018-06-28 20:35:11 · 1822 阅读 · 0 评论 -
python 通过视频url获取视频的宽高
这里其实是通过获取视频截图的方式获得大小的下面列举两个小demoimport cv2 #引入模块 获取视频截图的from PIL import Image #引入模块 获取图片大小import os #引入系统命令 删除图片video_full_path="http://qnmov.a.yximgs.com/upic/2018/06/06/12/BMjAxODA2MDYxMj...原创 2018-07-10 20:21:31 · 3805 阅读 · 0 评论 -
charles copy curl Request 抖音,出现curl: (55) Failed sending HTTP request
这是因为在请求头中多了一个冒号copy完curl request之后需要手动去掉冒号用图来说明原创 2018-07-02 11:54:35 · 4728 阅读 · 3 评论 -
scrapy 配置设置延迟
在setting.py文件中设置延迟下载DOWNLOAD_DELAY = 3原创 2018-07-02 10:10:12 · 11623 阅读 · 0 评论 -
json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0)
这一般是json格式不对引起的错误,检查自己的json,比如是否写成了单引号//json中必须使用双引号{ "key1":"value1", "key2":"value2"}其次查看是否处理的数据是否是json,比如你使用接口返回的数据,返回的数据为空,而你却在使用json解析函数在处理...原创 2018-07-02 09:34:33 · 49223 阅读 · 2 评论 -
国内应用宝广告主信息抓取
进入应用宝首页http://sj.qq.com/,所有应用在应用市场中在应用市场中分成了两层,第一层:应用,与游戏应用,工具应用游戏,游戏应用第二层:在第一层上进行了细分 工具类应用:腾讯软件、购物、阅读、新闻、视频、旅游、工具、社交、音乐、美化、摄影、理财、系统、生活、出行、安全、教育、健康、娱乐、儿童、办公、通讯游戏类应用:休闲益智、网络游戏、飞行射击、动作冒险、体育竞速、棋牌中心、经营策略、...原创 2018-05-30 17:51:58 · 1275 阅读 · 0 评论 -
dict no attribute has_key,遍历字典key
在python3中抛弃了字典has_key()的方法改为__contains__()使用方法完全一样原创 2018-05-30 16:04:40 · 540 阅读 · 0 评论 -
python2爬虫框架Scrapy实例(包含对中文编码的处理)
转https://www.cnblogs.com/xinyangsdut/p/7628770.html目标任务:爬取腾讯社招信息,需要爬取的内容为:职位名称,职位的详情链接,职位类别,招聘人数,工作地点,发布时间。一、创建Scrapy项目scrapy startproject Tencent二、编写item文件,根据需要爬取的内容定义爬取字段# -*- coding: utf-8 -*-imp...转载 2018-06-12 14:58:43 · 725 阅读 · 0 评论 -
python-requests
安装pipSudo easy_install pip安装requests切换到root用户 sudo -iPip install requests引入requests模块 import requestsr=Requests.get() requests.post() 请求网页,返回一个响应对象R.text是一个字符串,r.json()返回的是一个列表[]r=requests.get(‘https:...原创 2018-05-07 09:26:55 · 166 阅读 · 0 评论 -
python-面向对象正则
面向对象使用class 关键字声明类class class_name:构造函数__init__(self):所有的方法必须加上self参数,self代表类的实例,在定义时必须有。通过.访问属性或方法,实例.方法(),类名.属性(相当于静态属性);为类添加属性直接类名.属性名=值;就添加了新的属性类的继承class childname( parentname):在继承中基类的构造不会被继承方法重写可...原创 2018-05-07 09:25:49 · 189 阅读 · 0 评论 -
python学习笔记-基础语法
Python filename.py,在执行.py文件之前,需要把当前目录切换文件所在目录使用python命令切换到交互模式使用./filename.py直接执行py文件需要在.py文件的首行加上#!/usr/bin/env python 3 # -*- coding:utf-8 -*-print()函数用于输出,print(‘hello’);默认是换行输出的,想要实现不换行输出需要在变量末...原创 2018-05-07 09:24:35 · 320 阅读 · 0 评论 -
python爬取今日头条分析报告
1、https://if.snssdk.com/api/news/feed/v%s/?%s 今日头条请求方式是get请求,2、v%s与手机的品牌有关(我的手机OPPO就是V46),后面有很多参数,大部分都是不变的3、通过多次请求发现变动的参数有min_behot_time、last_refresh_sub_entrance_interval、as、cp等,4、主要影响请求数据的cagetory请...原创 2018-05-06 13:34:16 · 1906 阅读 · 0 评论 -
lxml解析库的安装及XPath使用
安装pip3 install lxml原创 2018-05-11 17:18:40 · 4531 阅读 · 0 评论 -
scrapy 命令介绍
标题主题使用scrapy框架之前确保已经安装好scrapy框架,Mongodb和pymongo库创建项目,使用命令scrapy startproject myproject该命令可以在任意文件夹中运行,如果遇到权限问题,请加sudo该命令会创建一个包含以下内容的myproject目录myproject/ scrapy.cfg myproject/ __init__.py ...原创 2018-05-11 15:05:15 · 294 阅读 · 0 评论 -
scrapy框架-架构流程介绍
Scrapy 框架Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。Scrapy 使用了 Twisted['twɪstɪd](其主要对手是Tornado)异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各...转载 2018-05-11 14:25:22 · 408 阅读 · 0 评论 -
关于python编码问题的解决
编码问题对于python初学者来说,简直就是灾难可能会遇到无论在哪里type()都是unicode不能了解到变量的真实类型python3中Chardet模块可以检测编码,从而解决编码烦恼检测编码安装chardet,不过python3默认就已经安装了,没有的话自行安装Pip3 install chardetimport chardetChardet.detect(b’hello,world’)...原创 2018-05-11 10:57:55 · 194 阅读 · 0 评论 -
关于python 使用请求保存视频文件
from urllib import request;#引入ssl,python3中使用urllib比如引入import ssl;#关闭全局验证,否则会一致报错ssl._create_default_https_context = ssl._create_unverified_contexturl='https://aweme.snssdk.com/aweme/v1/play/?video_id=...原创 2018-05-11 10:52:35 · 3099 阅读 · 0 评论 -
python3 中ssl.SSLError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:833)的错误
File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/urllib/request.py", line 1318, in do_open encode_chunked=req.has_header('Transfer-encoding')) File "/Library/Frameworks/Python...原创 2018-05-10 19:39:08 · 14260 阅读 · 2 评论 -
关于IndentationError:expected an indented block 错误
Python语言是一款对缩进非常敏感的语言,像函数体、类、循环体等都是以缩进来包含,与其他语言很大区别大部分都是使用{}大括号,很容易给初学者带来了困惑,即便是很有经验的Python程序员,也可能陷入陷阱当中。最常见的情况是tab和空格的混用会导致错误,或者缩进不对,而这是用肉眼无法分别的。在编译时会出现这样的错IndentationError:expected an indented block...原创 2018-05-10 09:25:22 · 2085 阅读 · 0 评论 -
mac下安装Scrapy
在Mac上构建Scrapy的依赖库需要C编译器以及开发头文件,它一般由Xcode提供,具体命令如下xcode-select --install使用pip安装Scrapypip3 install Scrapy输入scrapy 验证是否安装成功...原创 2018-05-07 19:31:16 · 378 阅读 · 0 评论 -
爬虫请求基础
http请求过程请求请求包含请求方法、请求的网址、请求头和请求体四部分请求方法 post 、get最常见请求网址 即url请求头 常用头信息如下accept:请求报头域,用于指定客户端可接受那些类型的信息Accept-Language:指定客户端可接受的语言类型Accept-encoding:指定客户端可接受的内容编码Host:用于指定请求资源的主机IP和端口号cookie:referer:用来标...原创 2018-05-08 19:09:19 · 143 阅读 · 0 评论 -
python-常用模块
常用的内建模块datetimeFrom datetime import datetimeDatetime.now()返回当前日期时间类型是datetimeDatetime(y,m,d,H,i,s)参数年月日时分秒 返回datetime类型Datetime().timestamp() 把datetime转换为timestampDatetime.fromtimestamp(t) 将timestamp...原创 2018-05-08 19:10:59 · 286 阅读 · 0 评论