多线程爬取豆瓣用户 多线程爬豆瓣用户import threadingimport timeimport requestsfrom pymongo import MongoClientimport jsonclass myThread(threading.Thread): # 继承父类threading.Thread def __init__(self, url): threa...
redis与python的交互 安装包pip3 install redis引用模块from redis import *这个模块提供了StrictRedis对象,用于连接redis服务器,按照不同类型提供不同方法,进行操作StrictRedis对象方法通过init创建对象,指定参数host、port与指定的服务器和端口连接,host默认为localhost,port默认为6379根据不同的类型,拥...
redis数据操作 数据操作redis是key-value数据结构,每条数据都是一个键值对键的类型是字符串,并且键不能重复值得类型分为五种 字符串string哈希hash列表list集合set有序集合zsetstring(字符串)string是redis最基本的类型,最大能存储512mb数据,string类型是二进制安全的,可以存储任何数据,如图片,数字等.增加和修改如果设...
redis数据库简介与安装 redis简介redis是一个开源的用ANSI C语言编写,支持网络,基于内存也可以持久化的日志型,key-value型数据库可以用作数据库,缓存和消息中间价是高新能的键值对存储系统,包括string(字符串)、list(链表)、zset(sortedset—有序集合)、hash(哈希类型)支持主从同步redis安装Ubuntu下安装可以选择sudo apt-get...
MongoDB与python交互 安装模块pip3 install pymongo引入模块from pymongo import *提供对象进行交互MongoClient对象:用于与MongoDB服务器建立连接DataBase对象:对应着MongoDB中的数据库Collection对象:对应着MongoDB中的集合Cursor对象:查询方法find()返回的对象,用于进行多行数据的遍历MongoC...
MongoDB数据库备份与恢复 MongoDB数据库备份mongodump -h dbhost -d dbname -o dbdirectory-h: 服务器地址,也可以指定端口号-d: 需要备份的数据库名称-o: 备份的数据存放位置,此目录中存放着备份出来的数据例如:mongodump -h 192.168.19.25:27017 -d test1 -o ~/Desktop/test1bakMongo...
MongoDB数据库查询、聚合、索引 数据查询find()方法db.集合名称.find({条件文档})findOne()方法 只返回一个db.集合名称.findOne({条件文档})pretty() 将结果格式化db.集合名称.find({条件文档}).pretty()比较运算符等于,默认是等于判断,没有运算符小于$lt小于或等于$lte大于$gt大于或等于$gte不等于$ne...
MongoDB数据库基本操作 MongoDB与mysql SQL术语/概念 MongoDB术语/概念 解释/说明 database database 数据库 table collection 数据库表/集合 row document 数据记录行/文档 column field 数据字段/域 index index 索引 ...
python与mysql交互,插入数据 #encoding=utf-8# 向学生表中插入一条数据from pymysql import *if __name__=='__main__': try: #创建Connection连接 conn=connect(host='localhost',port=3306,database='test1',user='root',password='my...
python中操作mysql python中操作mysql步骤安装模块pip install pymysql引入模块from pymysql import *Connection 对象用于建立与数据库的连接创建对象,调用connect()方法conn=connect(参数列表)参数host: 连接mysql主机port:连接mysql主机的端口,默认3306database:数据库名称...
mysql视图、事物、索引 视图对于复杂的查询,在多个地方被使用,如果需求发生了改变,需要更改sql语句,则需要在多个地方进行修改,维护起来非常麻烦解决:定义视图视图本质就是对查询的封装定义视图,建议以v_开头create view 视图名称 as select语句;例如:创建视图,查询学生对应的成绩信息create view v_stu_sco as select students.*,sc...
mysql 数据库 查询相关 查询相关指定别名 as select students.id,students.name from students select s.id,s.name from students as s;消除重复行 select distinct 列1,… from 表名使用where字句对数据筛选select * from 表名 where 条件比较运算符等于: =...
Scrapy 框架简单介绍 scrapy框架Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。Scrapy 使用了 Twisted(其主要对手是Tornado)异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口...
selenium例子--模拟百度搜索 # coding=utf-8from selenium import webdriverimport time#实例化一个浏览器driver = webdriver.Chrome()# driver = webdriver.PhantomJS()#设置窗口大小# driver.set_window_size(1920,1080)#最大化窗口driver.maximize_w...
爬虫--selenium和PhantomJS #现阶段爬虫已经能够爬取大部分网页,但仍有一部分不能完成爬取,为了反反爬虫,给出建议尽量减少请求次数 能抓列表页就不抓详情页尽量保存html页面,为排错和重复请求使用关注网站所有的类型页面 wap页面,如百度贴吧极简版h5页面app多伪装 动态的User-Agent使用代理ip 为放置多次请求封ip能不用cookie就不用利用多线程分布式 在不被禁止的情况下,尽可能...
多线程--爬虫--嗅事百科 # coding=utf-8import requestsfrom lxml import etreeimport threadingfrom queue import Queueclass QiubaiSpdier: def __init__(self): self.url_temp = "https://www.qiushibaike.com/8hr/pag...
多线程爬虫 多线程爬虫需要用到queue队列对象,这个模块将在后续文章中总结,这里仅仅说用法Queue(队列对象) Queue是python中的标准库,可以直接用import Queue来引用,队列是线程之间最为常用的数据交换形式Queue中常用的方法Queue.qsize() # 返回队列的大小Queue.empty() # 如果队列为空,返回true,反之返回false...
爬虫 --xpath运用--嗅事百科 # coding=utf-8import requestsfrom lxml import etreeclass QiubaiSpdier: def __init__(self): self.url_temp = "https://www.qiushibaike.com/8hr/page/{}/" self.headers = {"User-Age...
爬虫小结 实现爬虫的套路首先准备url,明确爬取的目标准备start_urlurl地址规律不明显,总数不确定的话,用正则或者xpath提取通过代码提取下一页urlxpath寻找url地址,部分参数会在当前响应中,如当前页码数或者页码总数准备url_list页码数明确url规律明显发送请求,获取响应添加随机User-Agent,反反爬虫添加随机的代理ip地址,反反爬虫如果被对...
xpath--贴吧爬虫 # coding=utf-8import requestsfrom lxml import etreeimport jsonclass TiebaSpider: def __init__(self,tieba_name): self.tieba_name = tieba_name self.start_url = "http://tieba.bai...