spirit_artist
码龄7年
关注
提问 私信
  • 博客:36,863
    社区:81
    36,944
    总访问量
  • 37
    原创
  • 623,669
    排名
  • 16
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:河南省
  • 加入CSDN时间: 2018-03-28
博客简介:

spirit_artist的博客

博客描述:
op
查看详细资料
个人成就
  • 获得9次点赞
  • 内容获得2次评论
  • 获得33次收藏
创作历程
  • 1篇
    2019年
  • 36篇
    2018年
成就勋章
TA的专栏
  • 自动化运维
    6篇
  • python爬虫
    18篇
  • 数据库复习
    14篇
兴趣领域 设置
  • 人工智能
    数据分析
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

多线程爬取豆瓣用户

多线程爬豆瓣用户import threadingimport timeimport requestsfrom pymongo import MongoClientimport jsonclass myThread(threading.Thread): # 继承父类threading.Thread def __init__(self, url): threa...
原创
发布博客 2019.08.07 ·
572 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

redis与python的交互

安装包pip3 install redis引用模块from redis import *这个模块提供了StrictRedis对象,用于连接redis服务器,按照不同类型提供不同方法,进行操作StrictRedis对象方法通过init创建对象,指定参数host、port与指定的服务器和端口连接,host默认为localhost,port默认为6379根据不同的类型,拥...
原创
发布博客 2018.04.15 ·
783 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

redis数据操作

数据操作redis是key-value数据结构,每条数据都是一个键值对键的类型是字符串,并且键不能重复值得类型分为五种 字符串string哈希hash列表list集合set有序集合zsetstring(字符串)string是redis最基本的类型,最大能存储512mb数据,string类型是二进制安全的,可以存储任何数据,如图片,数字等.增加和修改如果设...
原创
发布博客 2018.04.15 ·
313 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

redis数据库简介与安装

redis简介redis是一个开源的用ANSI C语言编写,支持网络,基于内存也可以持久化的日志型,key-value型数据库可以用作数据库,缓存和消息中间价是高新能的键值对存储系统,包括string(字符串)、list(链表)、zset(sortedset—有序集合)、hash(哈希类型)支持主从同步redis安装Ubuntu下安装可以选择sudo apt-get...
原创
发布博客 2018.04.15 ·
301 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MongoDB与python交互

安装模块pip3 install pymongo引入模块from pymongo import *提供对象进行交互MongoClient对象:用于与MongoDB服务器建立连接DataBase对象:对应着MongoDB中的数据库Collection对象:对应着MongoDB中的集合Cursor对象:查询方法find()返回的对象,用于进行多行数据的遍历MongoC...
原创
发布博客 2018.04.15 ·
383 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

MongoDB数据库备份与恢复

MongoDB数据库备份mongodump -h dbhost -d dbname -o dbdirectory-h: 服务器地址,也可以指定端口号-d: 需要备份的数据库名称-o: 备份的数据存放位置,此目录中存放着备份出来的数据例如:mongodump -h 192.168.19.25:27017 -d test1 -o ~/Desktop/test1bakMongo...
原创
发布博客 2018.04.15 ·
388 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

MongoDB数据库查询、聚合、索引

数据查询find()方法db.集合名称.find({条件文档})findOne()方法 只返回一个db.集合名称.findOne({条件文档})pretty() 将结果格式化db.集合名称.find({条件文档}).pretty()比较运算符等于,默认是等于判断,没有运算符小于$lt小于或等于$lte大于$gt大于或等于$gte不等于$ne...
原创
发布博客 2018.04.15 ·
1327 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

MongoDB数据库基本操作

MongoDB与mysql SQL术语/概念 MongoDB术语/概念 解释/说明 database database 数据库 table collection 数据库表/集合 row document 数据记录行/文档 column field 数据字段/域 index index 索引 ...
原创
发布博客 2018.04.14 ·
281 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

python与mysql交互,插入数据

#encoding=utf-8# 向学生表中插入一条数据from pymysql import *if __name__=='__main__': try: #创建Connection连接 conn=connect(host='localhost',port=3306,database='test1',user='root',password='my...
原创
发布博客 2018.04.14 ·
1667 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

python中操作mysql

python中操作mysql步骤安装模块pip install pymysql引入模块from pymysql import *Connection 对象用于建立与数据库的连接创建对象,调用connect()方法conn=connect(参数列表)参数host: 连接mysql主机port:连接mysql主机的端口,默认3306database:数据库名称...
原创
发布博客 2018.04.14 ·
332 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

mysql视图、事物、索引

视图对于复杂的查询,在多个地方被使用,如果需求发生了改变,需要更改sql语句,则需要在多个地方进行修改,维护起来非常麻烦解决:定义视图视图本质就是对查询的封装定义视图,建议以v_开头create view 视图名称 as select语句;例如:创建视图,查询学生对应的成绩信息create view v_stu_sco as select students.*,sc...
原创
发布博客 2018.04.14 ·
292 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

mysql 数据库 查询相关

查询相关指定别名 as​ select students.id,students.name from students​ select s.id,s.name from students as s;消除重复行​ select distinct 列1,… from 表名使用where字句对数据筛选select * from 表名 where 条件比较运算符等于: =...
原创
发布博客 2018.04.13 ·
345 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Scrapy 框架简单介绍

scrapy框架Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。Scrapy 使用了 Twisted(其主要对手是Tornado)异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口...
原创
发布博客 2018.04.13 ·
3078 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

selenium例子--模拟百度搜索

# coding=utf-8from selenium import webdriverimport time#实例化一个浏览器driver = webdriver.Chrome()# driver = webdriver.PhantomJS()#设置窗口大小# driver.set_window_size(1920,1080)#最大化窗口driver.maximize_w...
原创
发布博客 2018.04.12 ·
2055 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

爬虫--selenium和PhantomJS

#现阶段爬虫已经能够爬取大部分网页,但仍有一部分不能完成爬取,为了反反爬虫,给出建议尽量减少请求次数 能抓列表页就不抓详情页尽量保存html页面,为排错和重复请求使用关注网站所有的类型页面 wap页面,如百度贴吧极简版h5页面app多伪装 动态的User-Agent使用代理ip 为放置多次请求封ip能不用cookie就不用利用多线程分布式 在不被禁止的情况下,尽可能...
原创
发布博客 2018.04.12 ·
865 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

多线程--爬虫--嗅事百科

# coding=utf-8import requestsfrom lxml import etreeimport threadingfrom queue import Queueclass QiubaiSpdier: def __init__(self): self.url_temp = "https://www.qiushibaike.com/8hr/pag...
原创
发布博客 2018.04.10 ·
277 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

多线程爬虫

多线程爬虫需要用到queue队列对象,这个模块将在后续文章中总结,这里仅仅说用法Queue(队列对象)​ Queue是python中的标准库,可以直接用import Queue来引用,队列是线程之间最为常用的数据交换形式Queue中常用的方法Queue.qsize() # 返回队列的大小Queue.empty() # 如果队列为空,返回true,反之返回false...
原创
发布博客 2018.04.10 ·
246 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

爬虫 --xpath运用--嗅事百科

# coding=utf-8import requestsfrom lxml import etreeclass QiubaiSpdier: def __init__(self): self.url_temp = "https://www.qiushibaike.com/8hr/page/{}/" self.headers = {"User-Age...
原创
发布博客 2018.04.10 ·
454 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

爬虫小结

实现爬虫的套路首先准备url,明确爬取的目标准备start_urlurl地址规律不明显,总数不确定的话,用正则或者xpath提取通过代码提取下一页urlxpath寻找url地址,部分参数会在当前响应中,如当前页码数或者页码总数准备url_list页码数明确url规律明显发送请求,获取响应添加随机User-Agent,反反爬虫添加随机的代理ip地址,反反爬虫如果被对...
原创
发布博客 2018.04.10 ·
301 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

xpath--贴吧爬虫

# coding=utf-8import requestsfrom lxml import etreeimport jsonclass TiebaSpider: def __init__(self,tieba_name): self.tieba_name = tieba_name self.start_url = "http://tieba.bai...
原创
发布博客 2018.04.09 ·
1210 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏
加载更多