- 博客(29)
- 收藏
- 关注
原创 selenium点击爬取豆瓣高分电影
前言:当爬虫爬取多页时,大部分网站都是有下一页,或者标记有总页数,这让我们可以通过查找下一页的标签获取下一页的内容,又或者得到总页数,直接for循环url遍历所有页的内容,这两种都可以得到你想爬取多页的信息。 那么碰到动态加载的网页,或者点击出现,又或者滑动滚动条加载数据,这种网页的话就需要用其他的方法找数据了 1 解析JSON(好用,难度较大) 2使用selenium 实...
2018-11-19 20:33:29 1085
原创 Django数据与网页相连
前言:本文简单的将获取到的数据传递到html文件中并在文件上显示关于要获取的数据的接口:(自行选择一个就行)天气接口(location=%s)http://api.map.baidu.com/telematics/v3/weather?location=郑州市&output=json&ak=TueGDhCvwI6fOrQnLM0qmXxY9N0OkOiQ&ca...
2018-10-11 21:06:31 815
原创 Django的配置创建及简单网页显示
1,创建Django项目1,安装Django pip install django (1,2版本不一样,根据自身需求选择)2,创建项目1)使用终端命令行创建1,选择自己的项目路径 创建项目 django-admin startproject ***(项目名)2,切换到项目目录里面,创建app python manage.py startapp ***(APP名),...
2018-10-11 20:11:49 1026
原创 scrapyd和gerapy部署分布式爬虫
关于gerapy框架知识可以通过了解一下崔庆才的博客来获取gerapy基于scrapyd等模块。。功能非常实用。。可以简化分布式爬虫的步骤并且非常直观的表现出来!1,前置配置1,下载gerapy包 pip install gerapy2,在非c盘新建文件夹 例如(spider_gerapy)3,在该文件夹下打开命令窗口 输入gerapy_init 初始化(出现了gerap...
2018-09-27 22:31:52 538
原创 关于scrapyd爬虫项目命令多种使用方法与请求
关于对scrapyd爬虫使用命令几种方式(cmd命令行,cmder工具,通过py文件请求网址得到请求)1,命令行关于命令行的操作无需多言,基本操作,大概如下 在爬虫项目文件下使用命令2,cmder首先下载cmder,并打开cmder.exe 此时cmder窗口连接的是cmd命令窗口,如果有命令可直接在该窗口上使用例如爬虫的启动和关闭 cmder窗口显示结...
2018-09-27 21:24:01 806
原创 scrapyd部署爬虫项目所需配置
scrapyd部署爬虫项目1,安装scrapy包 pip install scrapyd在终端输入scrapyd 查看是否成功 所在端口为6800即为成功(建议不要将这个关掉,后面需要这个服务,关掉会连接不到主机) 在浏览器上输入127.0.0.1::6800 查看 点击jobs即为爬虫内容 当有爬虫文件执行时,jobs会显示爬虫的动态2...
2018-09-27 20:41:27 360
原创 基于scrapy_redis部署分布式爬虫
基于scrapy_redis部署scrapy分布式爬虫1,首先安装模块,pip install scrapy_redis前提:使用框架(scrapy。。)做一个爬虫项目,在爬虫项目上修改添加2,1)在爬虫文件中(spider)导入from scrapy_redis.spiders import RedisSpider并让爬虫类继承redisspider2)将sta...
2018-09-26 21:40:35 198
原创 Python虚拟环境的安装和配置
Python虚拟环境的安装和配置(windows)先在电脑上安装python2.7和python3.6,并记清楚安装路径,例如:统一安装在D盘 配置系统环境变量中的path路径,添加路径的版本即为默认使用版本3在命令行工具中输入pip install virtualenv 下载python虚拟环境 4在使用pip下载包时,经常会出现超时等情况,可以使用国内镜像提高下载速度,...
2018-09-18 20:20:32 323
原创 selenium验证码登陆
关于selenium登陆某些页面或者系统都会遇到验证码获取验证码 并自动填写 就是使用selenium自动登陆的关键首先关于识别图片中的验证码有以下步骤1,获取验证码图片2,使用某些识别软件识别图中验证码的信息3,返回获取的验证码,并填写关于识别验证码文件,我选择云打码http://www.yundama.com/about.html登陆注册并花费1元购买使用权...
2018-09-06 21:57:53 1405
原创 python的mysql安装及内容
今天我们来了解一下MySQL ,以及如何将scrapy框架爬取的数据放入到MySQL中1,首先,安装关于MySQL的包及相关配置在成功安装后,在终端输入你想要创建的项目 及该项目所需的域名scrapy genspider **(名字) **(域名)2,内容执行完上一步之后该文件夹里会有如下内容每一个文件都有它的内容作用! 关于爬虫文件介绍 3,两...
2018-08-27 15:48:33 217
原创 利用python发送邮件
关于用python发送邮件,首先导入新的模块import smtplibfrom email.mime.text import MIMETextfrom email.utils import formataddr使用 pip install smtplib安装根据所选择的邮件类型选择要发送的邮件,例如qq,163.。。。# 1,清楚qq邮件服务器的主机地址#这里也可...
2018-08-27 09:45:21 309
原创 python编写贪吃蛇游戏
关于编写游戏,是博主非常向往的东西(博主喜爱游戏),编写游戏得一步一步的走!今天我简单的编写一下非常经典的游戏贪吃蛇!!!!效果图:首先引入pygame模块pip install pygame关于编写贪吃蛇有如下几个步骤!依次思考1,设置背景大小,即游戏框大小,---像素(px)2,设置颜色,蛇的颜色,背景颜色,豆子的颜色#pygame游戏库,sys操控...
2018-08-16 20:49:59 19471 3
原创 python爬取电影top存入HTML文件
当我们在进行爬虫的时候!会选择多种存储显示方式!这次我们简单的实例一下(需要一点HTML基础)关于HTML布局推荐网站https://v3.bootcss.com/ ,需要在同步文件夹里添加css文件,HTML引入py文件代码from lxml import etreeimport requestsimport jsonfrom urllib.request im...
2018-08-16 20:14:20 677 2
原创 python爬取豆瓣250
import csvimport reimport requests# 导入用于随机User-Agent值的第三方库from fake_useragent import UserAgentfrom lxml import etreeclass DBMovie(object): def __init__(self): self.base_url = 'ht...
2018-08-09 21:08:25 371
原创 pythonCSV模块
在爬虫过后会取得很多信息! 将信息存起来方法还很多中!今天提一下CSV模块导入模块import csv这里先写个列表rows = [['zhangsan',20],['lisi',22],['wangwu',23],['zhaoliu',18]]1,写入信息with open('test.csv','w',newline='')as my_csv: writ...
2018-08-09 21:02:47 1155
原创 python创建表格及插入数据
关于表格需要导入新的模块 xlwt这里创建一个职业需求分布表为例子import xlwt#excel 2007版之前创建的表格。xls结尾的,需要用xlwt模块导入#Excel 2007版之后创建的表格是。xlsx结尾的,需要使用openpxyl模块倒入#创建工作博wb =xlwt.Workbook(encoding='utf-8')#括号内参数为表名ws = wb...
2018-07-31 20:22:13 21778 1
原创 python之处理需要登录信息的网站
当我们遇到了需要登录才能进去的网站时首先,我们必须声明以一个CookieJar对象,接下来,就需要利用HTTPCookieProcessor来构建一个Handler,最后利用build_opener()方法构建opener,执行oper()函数即可 1.以豆瓣举个例子from http.cookiejar import CookieJarfrom urllib.request im...
2018-07-31 20:22:01 1027
原创 python预加载爬取糗事百科帖子
'''按以下思路写出程序:1、面向对象(声明类,创建对象)2、类中有哪些函数? 初始化函数__init__() 需要初始化哪些数据? 第一次请求的页码1 一个空列表all_page_list,用于保存每一页数据的小列表 是否正在查看段子的变量enable(布尔型,正在查看为True,否则为False,初始值应为False) 开始爬取的函数s...
2018-07-31 19:17:44 368
原创 python基础之简单爬虫实例
前言:通过运用正则表达式,可以简单的写一写爬虫!马上来试一试11,爬去图片并保存下载。一段关于爬去美女图片的代码!(所以选择要爬的网址十分重要!看个人爱好了)from urllib.request import urlopen,Requestimport refrom urllib import requesturl = 'http://www.27270.com/ent/me...
2018-07-26 20:28:51 356
原创 python基础之随机设置访问头
前言:我们在爬虫中访问网站一般都需要请求头!今天我们编写一段随机请求的代码!可以说是方便以后使用!在编写代码前导入新的模块)from urllib import requestfrom urllib.request import build_opener,ProxyHandlerimport random1,编写多个请求头!根据不同的浏览器抽取的多个访问头#user_A...
2018-07-26 20:10:23 1486
原创 python基础之爬虫基础理论
前言: 在初步了解到正则表达式之后,今天我们学习一下关于爬虫的理论及最基本的爬去!1,http协议http 超文本传输协议互联网上传输数据的一种规范1.特点支持的数据格式比较广泛,json/text/html/xml/data传输速度快无状态的协议,第一次请求与第二次请求没有关系2,http协议请求报文和响应报文请求报文:发请求时所携带的一种信息1),请求行...
2018-07-19 20:34:25 310
原创 python基础之正则表达式
前言: 通过一段时间对基础知识的积累与学习,逐渐的向爬虫更近一步,这次我们主要来了解一下python很重要的正则表达式1,正则表达式的意义正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。re 模块使 Python 语言拥有全部的正则表达式功能。...
2018-07-19 19:42:55 197
原创 python基础之10个基本报错及处理
前言在前面几篇我们把关于python基础语句了解学习了一下!今天我们分析一下,将会伴随我们整个python学习过程的boss! 是的! 就是-----报错!对于前期学习 我们总结了大概10个常出的错误!1,语法错误,非法的语法name = '小王' if name == '小王' print('hello')报错:SyntaxError: invalid syntax解决办法:看报错...
2018-07-10 21:47:51 336
原创 python基础之数据库
上次了解对象和类方法,今天我们来简单了解一下数据库1.首先,什么是包? 每一个文件都是包,使用的时候只需要在其他py文件里面引入即可如何应用一个包?下面就有个简单的例子首先 创建一个 mypackage.py的文件# gitup__all__=['work','study','play','rule'] # 允许外部使用的方法def work(): print('人人都有工作的...
2018-07-06 21:57:08 285
原创 python基础之对象及类的属性和方法
上次学习了函数的问题,今天我们了解一下Python语句的对象及类的属性和方法!1,对象举个例子class People(object): name = '' sex = '男' age = 2 height = '' weight = '' def eat(self): print('人类出生就会吃东西') def sleep...
2018-07-05 21:42:45 664
原创 python基础之异常处理与函数
上次学完了os操作,今天又了解到Python关于异常处理与函数,关于函数及异常处理的定义之类的自行在百度搜索,这里就不细讲了,下面简单的操作一下关于异常处理及函数的代码。1,异常处理关于捕获错误。list = [1,2,3,4,5,6,7,8]# print(list[14])dic = {}# 如果dic有name属性 则修改这个属性 如果没有name属性 则添加name属性...
2018-07-04 21:22:20 393
原创 pytion基础之OS和文件操作
1,os模块os模块获取电脑的相关信息并且有很强大的文件及文件夹操作能力,所以在操作文件或者文件夹的时候首先要引入os模块关于os的一些代码 简单的几个例子import os# 获取电脑cpu个数cpuCount = os.cpu_count()print(cpuCount)name = os.name# nt代表windows操作系统 linux为posixprint('操作系统的名...
2018-07-03 20:57:26 543
原创 pytion基础语句之数据类型
简来了解到一些数据类型 列表 元组 字典。个有功能!1.列表这个环节了解到不少的操作。例如:1,枚举 enumurate 可以让遍历元素 添加一个编号(索引值) 列表推导式 更简洁的表现出来for x , y in enumerate(list): print(x ,y)for x,(y,z) in enumerate(list): print(x,y,z)list =...
2018-06-29 21:53:07 809
原创 PYTHON基础之条件语句
了解到一些Python基础语句 那就反手敲一敲!!!1,关于个税算法 基本算法:扣除三险一金后月收入 = 工资 - 三险一金应纳税所得额=扣除三险一金后月收入-扣除标准应纳个人所得税税额=全月应纳税所得额×适用税率-速算扣除数个税 基本条件: 扣除标准3500元/月三险一金缴纳 的基准工资上限为7662 ;超过,就按照7662缴纳;gongzi = int(input('请输入工资:'))...
2018-06-27 22:22:41 436
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人