自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 资源 (1)
  • 收藏
  • 关注

原创 path

nginx/usr/local/nginx查询nginx主进程号:ps -ef | grep nginx关闭:kill -9 进程号- 启动:sudo /usr/local/nginx/nginxmongodb数据实例:/var/lib/mongodb日志:/var/log/mongodb

2017-10-29 15:49:29 298

原创 进程

进程间通信 -*- coding:utf-8 -import osfrom multiprocessing import Queuefrom multiprocessing import Processdef sub_message(q): while True: print(q.get())def add_message(q): for i in range

2017-10-22 19:10:52 258

原创 多进程、多线程、协程实现并发

多线程并发# -*- coding:utf-8 -*-# 实现理由:不让客户端去等待连接import socketfrom multiprocessing import Processdef talk(sock): while True: # 写while True 的原因,可以让客户端多次发消息 msg_IP = sock.getpeername()

2017-10-22 19:04:08 522

原创 TCP通信

tcp服务器# -*- coding:utf-8 -*-import socketdef main(): # 创建套接字 service_socket = socket.socket(socket.AF_INET, socket.SOCK_STREAM) # 设置属性,可以重复使用IP service_socket.setsockopt(socket.SOL_SO

2017-10-22 18:42:31 237

原创 UDP编程

模拟qq聊天# -*- coding:utf-8 -*-import socketfrom threading import Threaddef read_msg(socket, msg): print(msg) while True: receive_msg, IP = socket.recvfrom(1024) print("from %s:

2017-10-22 18:39:06 245

原创 selenium简单用法

介绍配置简单用法介绍selenium: Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的phantomjs: PhantomJS 是一个基于Webkit的“无界面”(headless)浏览器配置下载selenium sudo pip install selenium安装phantomjs sudo apt-get install phantomjs

2017-10-22 18:35:52 327

原创 scrapy框架下载图片

步骤第一步设置图片存储路径第二步管道中定义图片下载类第二步重写get_media_requests方法第三步重写item_completed方法 步骤第一步:设置图片存储路径必须为(IMAGES_STORE) 第二步:管道中定义图片下载类第二步:重写get_media_requests()方法此方法返回图片链接,框架会自动下载图片,前提必须有图片存储路径,不然没法下载第三步:重写it

2017-08-26 00:38:04 570

转载 LINUX下常用解压与压缩

.tar解包:tar xvf abc.tar打包:tar cvf abc.tar DirName.zip解压:unzip FileName.zip压缩:zip FileName.zip DirName.gz解压1:gunzip FileName.gz解压2:gzip -d FileName.gz压缩:gzip FileName.tar.gz 和 .tgz解压:tar zxvf

2017-08-22 19:26:59 163

原创 scrapy(三)

反爬措施三个策略方向判明用户身份 User-AgentCookiesRefer验证码(常用:打码平台)分析用户行为 并发识别在线活动时间页面添加一些正常浏览器浏览访问不到资源动态加载数据 ajax技术反反爬与下载器中间件常见反反爬措施模拟用户头 设置位置 settings文件创建请求时下载器中间件请求延迟 settings文件中设置 DOWNLOAD_DELA

2017-08-22 19:14:48 411

原创 scrapy(二)

请求与响应请求GETRequest类重要参数 url:目标urlcallback:目标url对应的解析函数meta:传参,,字典形式headers:请求头,模拟伪装dont_filter: 该请求是否被过滤器过滤cookies:cookies参数meta传参原理 Scheduler(调度器)将requests请求实例,(此实例中含有meta参数)给了下载器,Downloader(

2017-08-21 20:46:16 374

原创 Mongodb(二)

索引优点与缺点优点:用于提高数据读取速度,提高查询效率缺点: 会降低表更新速度占用磁盘空间基本命令唯一索引,实现唯一约束,1(升序),-1(降序) db.集合名.ensureIndex({“name”:1},{“unique”:true})联合索引,对多个属性建立一个索引,按照find()出现的顺序 db.集合名.ensureIndex({name:1,age:1})查看索引

2017-08-19 20:34:26 243

原创 Mongodb(一)

安装(Linux系统下)导入软件源的公钥: sudo apt-key adv –keyserver hkp://keyserver.ubuntu.com:80 –recv EA312927创建软件源:echo “deb http://repo.mongodb.org/apt/ubuntu xenial/mongodb-org/3.2 multiverse” | sudo tee /etc/ap

2017-08-19 19:47:04 285

原创 Scrapy框架

Scrapy框架结构及各模块功能框架结构模块功能Scrapy Engine(引擎): 处理整个系统各个模块间信号Spiders(爬虫类): 发起起始的请求定义如何爬取一个网站,获取数据Scheduler(调度器): 从此处拿到url接收请求,压入队列Downloader(下载器): 接收请求,返回响应ItemPipeline(管道): 数据后续处理Scrapy框架爬虫开发流

2017-08-19 00:18:36 1163

原创 Spider_BUG

json字符串转换Scrapy_redis分布式json字符串转换 - 原因:获取的数据含有多个json字符串,将不需要的替换为空,就可以解决了 Scrapy_redis分布式使用redis进行分布式爬虫时,重写组件会自动过滤设定的url,所以,在进行不断callback时,要注意将dont_filter = True,设为不过滤,我就是在此处没设置,导致没有item返回

2017-08-17 20:34:04 296

原创 数据提取方法

数据分类区分标准:规律性规律弱 非结构化数据: html等处理方法:正则、xpath规律强 结构化数据:json、xml等 处理方法:转化为python类型JSON说明:JSON(JavaScript Object Notation)是一种轻量级数据交换格式,适用于进行数据交互使用说明:能找到尽量使用返回json数据的url,因为很好转为python内建数据类型相互转换json

2017-08-17 10:54:19 728

原创 Python扁平化写法(不断更新)

目的:为了增加代码可读性,更加简洁,欢迎大家批评补充列表生成式list = [a for a in range(10)]字典生成式将列表转换为字典temp_list = ['a=b', 'c=d'] dict = {i.split("=")[0]:i.split("=")[1] for i in temp_lsit}生成字典简单写法make_dict = dict(a="b", c="d

2017-08-14 00:32:22 3492

原创 requests深入

发送POST请求应用场景 进行登录注册(POST比GET安全)传输大文本内容用法 response = requests.post(url, data=data, headers=headers)data和headers都是字典的形式使用代理使用原因 让服务器以为不是同一个客户端在请求防止真实地址泄露用法 requests.get(url,proxies=proxies)p

2017-08-14 00:11:02 256

原创 Requests使用入门

Requests,简单爬虫案列

2017-08-12 17:41:56 530

原创 爬虫基础知识

爬虫定义:爬虫就是模拟客户端发送网络请求,接收请求响应,一种按照一定规则,自动抓取互联网信息的的程序爬虫原则上能做浏览器能做的任何事爬虫分类通用爬虫 返回网页,不能很好的发现图片、音频、视频、数据库不同需求,返回页面html内容相同聚焦爬虫 面向特定主题需求的一种网络爬虫程序,会对爬取内容进行筛选ROBOTS协议 告诉搜索引擎哪些内容可爬取,哪些内容不可爬取HTTP和HTTPS

2017-08-12 17:11:32 719

转载 欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2017-08-12 16:19:42 293

python高级语法

Python生成器,迭代器,装饰器思维导图

2017-08-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除