![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python自学笔记
dh0805dh
这个作者很懒,什么都没留下…
展开
-
模块
模块模块是高级的封装,就是程序封装数据的封装语句的封装方法和属性的封装py文件目录要和exe文件目录一致调用时最好使用as进行用于测试自身模块:if __name__ == '__main__' #用于判断是否在测试当在自身模块中运行时候,如果有编入测试方法,则会自身测试;当在模块被调用时候,不会进行测试方法的运行。搜索路径:import syssys.path...原创 2019-03-19 15:53:11 · 83 阅读 · 0 评论 -
遇到ajax怎么办?scrapy爬虫搞一下腾讯招聘
都Ajax啦,思路不用讲啦,直接放爬虫的py文件# -*- coding: utf-8 -*-import scrapy,re #Ajax 嘛。。肯定要用正则啦,还要拼接URL哦from urllib.parse import urlencode class HrSpider(scrapy.Spider): #Network 中 查看XHR 找到 实际存放信息的链接 并...原创 2019-05-08 17:12:32 · 327 阅读 · 0 评论 -
生成完验证码,试着识别验证码
有些东西我们就要正正反反换个姿势再来一次比如说刚刚完成的~生成验证码试着识别一下验证码吧~安装(ocr)Optical Character Recognition,光学字符识别不是orz看清楚了ocr不是orzpip install pytesseract你以为这就安装完事了?呵呵天真还要下软件哦http://www.cnblogs.com/zhangxinqi/p/...原创 2019-04-30 22:31:01 · 262 阅读 · 0 评论 -
手机版百度贴吧scrapy爬取
我大LOL吧'http://tieba.baidu.com/mo/m?word=LOL&tn6=bdISP&tn4=bdKSW&tn7=bdPSB&lp=1050&sub4=%E8%BF%9B%E5%90%A7'这网页地址不用多说了吧然后右键检查记得打开toggle device toolbar# -*- coding: utf-8 -*-im...原创 2019-05-13 18:56:31 · 210 阅读 · 0 评论 -
scrapy爬取阳光政务投诉
先说好,本博客都是自己练手的,没有任何商业化什么的,如果要求删除请私聊,看到后会第一时间删掉,不要发律师函,谢谢,鸡你太美yg.py# -*- coding: utf-8 -*-import scrapyfrom yangguang.items import YangguangItem #item文件里定义了几个参数,下面放items.pyclass YgSpider(scrapy.S...原创 2019-05-09 13:28:47 · 314 阅读 · 0 评论 -
redis和desktop manager的无法打开、无法安装以及常用命令
最近换了个电脑重新装的时候发现了一些问题redis desktop manager 收费了https://github.com/uglide/RedisDesktopManager/releases这里可以找到旧版本一样可以使用安装redis desktop manager之后打不开需要下载一下‘vc_redist.x86.exe’我上传不了。。。有需要的话就留邮箱吧。。。...原创 2019-05-14 13:58:13 · 4839 阅读 · 1 评论 -
scrapy的settings.py详细解读
上一篇爬了阳光政务,正好没有给出settings.py文件的代码,那就以它为例子注释一下# -*- coding: utf-8 -*-# Scrapy settings for yangguang project## For simplicity, this file contains only settings considered important or# commonly us...原创 2019-05-09 15:12:59 · 189 阅读 · 0 评论 -
pycharm中不使用正则就可以一键添加引号
自己动手丰衣足食网上已经有了一些比如用正则进行替换的操作但是总归是有一些不能替换的就比如腾讯招聘下的:str = """countryId:cityId:bgIds:productId:categoryId:parentCategoryId:attrId:keyword:pageIndex: 1pageSize: 10language: zh-cnarea: cn""...原创 2019-05-06 23:32:09 · 1306 阅读 · 0 评论 -
selenium模拟登陆截取验证码
向百度大大下手吧。。。大致思路1.打开chrome2.进入百度3.点击登录4.切换账号密码登录5.尝试获取验证码截图(密码输错三次就可以出现验证码了)GKDfrom selenium import webdriverfrom PIL import Imageimport time实例化browser = webdriver.Chrome()输入网址browse...原创 2019-05-19 22:24:51 · 2112 阅读 · 2 评论 -
scrapy-redis京东图书
GKD# -*- coding: utf-8 -*-import scrapy,jsonfrom urllib.parse import urljoinfrom copy import deepcopyclass JdSpider(scrapy.Spider): name = 'jd' allowed_domains = ['jd.com','3.cn'] st...原创 2019-05-15 21:31:21 · 138 阅读 · 0 评论 -
Scrapy爬一下苏宁图书
别说了,GKD,滴滴学生卡不上注释了哦 如果那里我写的不明白就留言哈# -*- coding: utf-8 -*-import scrapy,refrom copy import deepcopy# from book.items import BookItemclass SuningSpider(scrapy.Spider): name = 'suning' al...原创 2019-05-11 14:28:31 · 153 阅读 · 0 评论 -
CrawlSpider一键爬取投标网
惊了个呆 不到20行爬完~# -*- coding: utf-8 -*-import scrapyfrom scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Ruleimport reclass GgSpider(CrawlSpider): name = 'gg...原创 2019-05-11 18:16:51 · 749 阅读 · 0 评论 -
分布式scrapy-redis搞一下当当
GKD# -*- coding: utf-8 -*-import scrapyfrom urllib.parse import urljoinfrom copy import deepcopyfrom scrapy_redis.spiders import RedisSpiderclass DangdangSpider(RedisSpider): name = 'dangd...原创 2019-05-16 15:10:42 · 122 阅读 · 0 评论 -
python生成验证码
简化版from PIL import Image,ImageFont,ImageDraw,Imageimport stringimport random#定义画布大小w = 60*4h = 60#生成画布 rgb模式 长宽 底色im = Image.new('RGB',(w,h),(000))#定义画笔的字体大小 需要指定路径 大小font = ImageFont...原创 2019-04-29 18:10:32 · 112 阅读 · 0 评论 -
来一套爬虫儿
写一起太过冗长,那就分开写吧PyQuery库安装&调用pip install pyqueryfrom pyquery import PyQuery走你'字符串初始化'from pyquery import PyQuery as pqhtml = ''' <select node-type="changeLanguage" suda-data=...原创 2019-04-24 13:49:05 · 371 阅读 · 0 评论 -
来一套爬虫
别说了 爬就完事了python如何访问互联网?需要用到urllib(这是一个包(package),包含了网页地址(URL)和Library(lib),包含了四个模块:request、error、parse/robotparser)URL = 协议(protocol:http、https、ftp……) + 域名(hostname) +路径(path)import urllib.request...原创 2019-03-19 17:53:06 · 949 阅读 · 0 评论 -
爬小说~那必然是雪中悍刀行~
啥也别说了 雪刀走起天不生我李淳罡 剑道万古长如夜先爬一章试试水import requests #调用requestsfrom pyquery import PyQuery as pq #pq调用PyQuery#读网站url = 'http://book.zongheng.com/chapter/672340/36898237.htm...原创 2019-03-21 09:26:11 · 360 阅读 · 0 评论 -
我要一步一步网上爬
各种例题~1.爬取‘最好大学网’大学排名:#爬排名import requestsfrom bs4 import BeautifulSoupimport bs4#定义获取地址方法def getHTMLText(url): try: r = requests.get(url,timeout = 30) r.raise_for_status() ...原创 2019-03-21 15:59:29 · 202 阅读 · 0 评论 -
迭代器
Python-lesson 48 迭代器什么是,迭代器?举个栗子for i in '123456': print(i)123456简单来说 每次从某个地方依次拿出一个数据这就是一个简单的迭代操作同样的,字典等等也可以使用迭代操作d = {'1','2','3'}for i in d: print(i)321内置函数 build-in functi...原创 2019-03-19 10:32:42 · 79 阅读 · 0 评论 -
生成器
lesson 49 生成器出现关键字 那就是yield遇到yeld 会将yeld右侧数据 返回 之后 暂停下次运行继续从暂停处开始举个栗子def Gen: print('大家好,我是生成器~') yield 1 yield 2gen=Gen()next(gen)大家好,我是生成器~1next(gen)2我们继续斐波那契数列def Fibs():...原创 2019-03-19 11:03:31 · 108 阅读 · 0 评论 -
天坑填坑
函数功能set()返回无序元素集合,①删除重复数据,可以计算②交集&、差集-、并集丨**等x = set('aaaaa')y = set('abcd')x-->{'a'} 去掉重复y-->{'abcd'}x&y -->{'a'} 交集y-x -->{'c', 'b', 'd'} 差集x-...原创 2019-03-23 22:41:48 · 187 阅读 · 0 评论 -
小技巧教你秒装scrapy
真的麻烦。。。从下往上安装就完事了。(图是盗的~当时随手保存的。。谢谢那个大兄弟。。如有雷同,我删还不行么。。。哈哈)twisted这个骚东西。。。可能会让你安装C++ 14.0我去。。。我踏马闲的呀。。。给你装这么久。。。所以嘿嘿嘿https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted自己动手丰衣足食~下载吧但是安装时候还是会...原创 2019-03-27 12:26:48 · 117 阅读 · 0 评论 -
初识scrapy
新建工程scrapy startproject *** 命令在d盘pyset文件夹下新建一个爬虫工程打开D盘下的pyset文件夹会看到上面这个样子上面是进入python123demo之后的样子文件名内容pycache缓存目录spiders存放爬虫init.py初始化脚本items.pyitems模板,继承scrapy中的item类...原创 2019-03-27 16:14:45 · 113 阅读 · 0 评论 -
正则爬一下猫眼电影排行榜
分析走一走直接猫眼官网然后榜单一条龙右键检查dd(弟弟)标签包含了所有的排名信息再看看网页url搜打死内每页十个dd(弟弟)对应每页十个榜单url的最后offset=0和offset=10 and so on 对应的是第几页大概就是这么个情况那就仔细看看dd(弟弟)标签的内容不想多废话了上图图上啥也有那接下来干啥呢?盘他import reimport r...原创 2019-04-26 17:55:29 · 193 阅读 · 0 评论 -
pillow就是Python中的简化版Photoshop
thumbnail和resizefrom PIL import Imageimage_file = Image.open('heihei.jpg') im = image_fileprint('原图未操作:' + str(im.size))-->原图未操作:(700, 817)print('resize操作之后:' + str(im.resize((length//2,w...原创 2019-04-28 20:05:47 · 468 阅读 · 0 评论 -
模拟登陆哦~
使用Cookies模拟登陆大致思路1.手动登陆网站2.获取cookies3.携带cookies进行访问并抓取数据import scrapyclass XXX(scrapy.Spider): name = 'XX' allowed_domains = ['XXXX'] start_urls = ['XXXX'] #直接使用start_urls是无法登陆一些页面的...原创 2019-05-12 19:51:38 · 148 阅读 · 0 评论