Python
1024小豆子
这个作者很懒,什么都没留下…
展开
-
Python增删改查MongoDB数据库
详细内容见代码注释↓ #-*-coding:utf-8 -*- import sys reload(sys) sys.setdefaultencoding('utf-8') import pymongo #建立MongoDB数据库连接 client = pymongo.MongoClient('localhost',27017) # 连接所需数据库,test为数据库名 db = client原创 2017-08-23 11:12:52 · 1626 阅读 · 0 评论 -
Python爬虫入门架构
简单爬虫架构 基本的爬虫架构如图所示,有调度端、URL管理器、网页下载器、网页解析器以及存储价值数据的容器。下面将分别进行讲解。 爬虫调度端 爬虫调度端其实就是程序入口、开始爬取的URL以及判断是否还有待爬取的URL等功能,想好处理逻辑和流程,这一块没什么问题。 读取一个未爬取的URL,通过下载器下载HTML文档,通过解析器解析出该页面的价值数据以及新的待爬取URL。原创 2017-08-26 13:43:25 · 2662 阅读 · 0 评论 -
Python多线程
详细内容见代码注释↓ 函数模式 import threading from time import sleep ''' 函数模式 调用t=threading.Thread(target=函数名,[args=(变量1,变量2,..)]) 线程直接调用目标函数 ''' def function(a1,a2,a3): print a1,a2,a3 t1 = threading.Thre原创 2017-08-31 15:45:44 · 1028 阅读 · 0 评论 -
Scrapy笔记
Scrapy框架编写流程 1、scrapy s startproject XXXXX //创建项目,XXXXX代表你项目的名字 2、创建好项目后,目录结构: 3、Scrapy默认是不能在IDE中调试的,我们在根目录中新建一个py文件叫:entrypoint.py;在里面写入以下内容:#coding:utf8from scrapy.cmdlineimport execute#前...原创 2018-06-14 14:35:22 · 607 阅读 · 0 评论 -
使用PhantomJS+Selenium动态爬取
动态爬取使用PhantomJS+Selenium很多网站通常会用到Ajax和动态HTML技术,因而只是使用基于静态页面爬取的方法是行不通的。辨别是否是动态网站最简单的方法,浏览器中查看页面相应的内容、当在查看页面源代码时找不到该内容时就可以确定该页面使用了动态技术。环境搭建安装Selenium,pip install selenium下载phantomjs,解压然后在调用时执行路径executab...原创 2018-06-26 10:35:53 · 1356 阅读 · 0 评论 -
RabbitMQ+Celery
RabbitMQ+Celery 最近用到RabbitMQ+Celery框架进行开发分布式任务队列,这里进行一下整理总结,菜鸟欢迎批评指正。 RabbitMQ 一些术语 官网:http://www.rabbitmq.com/ RabbitMQ是一个开源的AMQP实现,服务器端用Erlang语言编写,支持多种客户端,如:Python、Ruby、.NET、Java、JMS、C、PHP、Acti...原创 2018-08-05 15:39:12 · 9507 阅读 · 2 评论