qq_42847500-CSDN博客

原创 python爬虫：爬取百度小姐姐照片

自从学会了爬虫，身体状况一天不如一天，营养都跟不上了，教大家爬取百度性感小姐姐的图片，先看一下效果。项目流程第一步：准备工作工欲善其事，必先利其器pip install requests，该模块用来发送网络请求pycharm编写代码。Chrome浏览器便于解析网页内容。第二步：分析网页想要从某个网站获取数据，首先肯定要熟悉这个网站，知彼知己，百战不殆。使用Chrome浏览器，百度图片搜索“小姐姐”F12进入调试模式依次点击图一的1.Network、2.XHR。然后鼠标鼠标

2021-05-06 09:13:19 408

原创 python基础：break和continue

python基础：break和continue在循环语句中可以使用break和continue。break的功能是中断整个循环。continue的功能是跳出某一次循环并继续执行下一次。breaks1 = [1, 2, 3, 4, 5, 6, 7, 8, 9]for i in s1: if i == 4: break print(i)使用for…in…循环遍历列表s1，当遍历的结果等于4的时候会执行break语句。该语句的功能是中断了整个循环。所以4之后的

2021-05-01 19:35:40 119

原创 python选择排序

选择排序选择排序的基本思路是通过循环找到乱序列表中最小的那个值，然后把最小的那个值跟列表中的第一个值交换位置如上图所示第一次循环之后从列表中找到了最小的那个值并且把最小值跟第一个值交换，交换之后右边依然是乱序状态。然后就从剩下的列表中在找到一个最小值跟列表中的第二个值交换位置，以此类推知道所有的元素排列完毕代码思路现在有一个列表 [64, 25, 12, 22, 11]，我们一眼就能看出来最小的值是11对应的下标是4，但是计算机并不知道啊。即便是我直接告诉它它也不能信，它会选择自己去判断

2021-04-19 10:15:17 223

原创 python求第n项斐波那契数列对应的值

斐波那契数列如下：1、1、2、3、5、8、13、21、34 . . .要求第n项斐波那契数列的值不难发现一个规律：当n=1的时候对应的值是1当n=2的时候对应的值是1当n>2的时候对应的值等于前两项的和。编程思路# 创建一个带参数的函数，返回对应的斐波那契数列的值def fib(n): pass如果这个函数的功能是完整的那么当我调用函数的时候结果应该如下：fib(1)=1fib(2)=1重点关注以下规律fib(3)=1+1=fib(1)+fib2fib(

2021-04-16 19:04:13 4057 2

原创 python 冒泡排序

冒泡排序冒泡排序是一种交换排序，它的基本思想是比较两个相邻的数据，如果第一个数据比第二个数据大，则两数交换。如上图所示，经过第一次循环之后会把数据中的最大值交换到最右边，而左边的数据依然是乱序状态，所以需要继续进行循环，第二次循环的次数就会比第一次循环的次数少一次，剩下的以此类推。代码思路：首先要学会如何交换两个数据，python交换数据的方式很简单，一行代码就能实现x = 1y = 2x,y = y,x # 交换x变量和y变量的值print('x='+str(x))pri

2021-04-15 11:55:30 77

原创 pymongo 增、删、改、查等操作

pymongo 的基本操作1. 连接mongodbimport pymongoclient = pymongo.MongoClient(host='localhost', port=27017)2. 选择数据库和集合已有的数据库和集合会选中，没有的会自动创建# 选择数据库,没有则创建test数据库db = client.test# 选择集合，没有则创建students集合...

2019-09-10 14:32:59 1067 1

原创使用requests、queue(队列)、threading 实现一个多线程爬虫

使用requests爬取糗事百科（多线程版）使用多线程可以条爬虫效率注意在从队列中取数据并完成操作之后要加上task_down()方法import requestsfrom lxml import etreeimport threadingfrom queue import Queueclass QiubaiSpider: def __init__(self): ...

2019-07-12 13:03:08 741

原创 Python使用Apscheduler实现定时任务

from apscheduler.schedulers.blocking import BlockingSchedulersched = BlockingScheduler()def crawl_job(): print('test')sched.add_job(crawl_job, 'cron', hour='10',minute='12-15')sched.start...

2019-07-12 11:57:49 186

原创 aiohttp、异步、协程、爬虫（入门案例）

aiohttp异步请求提高爬虫效率aiohttp可以理解为一个异步的requests，使用aiohttp发送请求可大大提高爬虫效率。基本语法可参考 https://www.jianshu.com/p/63d9741b0beeasync定义一个协程improt async# 定义该函数为协程async def test(): passrequests发送请求impor...

2019-07-12 11:45:56 503

原创 pyexecjs （python 执行 javescript 代码）

在学习爬虫的过程中会经常碰到要爬取的页面需要加载js才能显示。可以用python的一个第三方库 pyexecjs 在pyton中执行js代码（前提：不要求会写js，但是得能看懂）pyexecjs 安装pip install PyExecJS因为要执行js代码所以需要安装执行js代码所需要的环境这里使用的是node.js （可自行下载），下载结束后将node.exe添加到环境变量方便pyt...

2018-12-28 13:54:40 1991

原创 requests 封装一个爬虫类实现基本的反爬虫

参考以下代码http://www.runoob.com/html/html5-intro.html以下代码实现了爬取该链接下的自定义链接import requestsfrom fake_useragent import UserAgentfrom retrying import retryimport hashlib #信息摘要 md5 shaimport queue #队列imp...

2018-12-24 19:45:52 357

原创 mongodb （封装一个类，实现增、删、改、查）直接调用即可

利用python魔法方法实现此类import pickleimport zlibfrom datetime import datetime,timedeltafrom pymongo import MongoClientfrom bson.binary import Binaryclass MongoCache(object): &quot;&quot;&quot; 数据库缓存 &quot;&am

2018-12-24 19:34:35 617

原创 requests 用类封装一个基本爬虫（入门，仅供参考）

以百度贴吧为例（爬取lol吧）import requestsclass TiebaSpider: def __init__(self,tieba_name_crawl): """ 初始化必要参数,完成基础设置 """ self.tieba_name = tieba_name_crawl self.url_..

2018-12-24 19:26:47 557

原创 scrapy 模拟登录方法

注意：模拟登陆时，必须保证 setting.py里的 COOKIES_ENABLED(Cookies中间件)处于开启状态=========================================================策略一：直接POST数据(比如登陆人人网)import scrapyclass Renren1Spider(scrapy.Spider): ...

2018-11-13 21:21:17 175

原创 scrapy 保存mysql, mongodb, json（pipelines.py 的写法）

1，保存数据到mysql数据库第一步在 settings.py 文件中添加以下代码ITEM_PIPELINES = { 'qiu_bai_mysql.pipelines.QiuBaiMysqlPipeline': 300,}HOST = 'localhost'PORT = 3306USER = 'root'PWD = 'root'DB = 'qiubai'CHARS...

2018-11-12 18:59:41 233

原创 scrapy 入门案例

scrapy 爬虫（糗事百科）第一步准备工作爬取以下内容name age content在H:盘创建爬虫项目# 创建爬虫项目（项目名qiu_bai）scrapy startproject qiu_bai会自动生成以下目录及文件第二步切换到spiders目录下# 生成爬虫文件scrapy genspider qiubai www.qius...

2018-11-10 16:51:20 236

qq_42847500的博客