自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 资源 (2)
  • 收藏
  • 关注

原创 bs4_lxml的基本用法

# -*- coding:utf-8 -*-# 需要下载bs4包 pip install bs4# lxml xpath会用到里边的treefrom bs4 import BeautifulSoupimport codecs# BeautifulSoup 是python支持的一个第三方的包,作用是用来解析网页,提取数据# lxml 第三方的解析包,解析html速度比较快,功能强大,...

2018-03-08 19:17:43 794

原创 爬取豆瓣

 此爬虫思想:    1.在get_html 中根据url地址,获取目标数据,判断请求的是否为完整影评的json数据,如果是将返回的数据赋值给json属性,如果不是就赋值html属性    2.在parse_list函数中,根据正则解析当前页的所有电影的链接,拼接完整的影评链接地址,发送请求,解析影评数据,  找到下一页的链接,发送请求,重新调用parse_list函数解析下一页数据....   ...

2018-03-08 19:08:38 1150

原创 爬取百度贴吧精品贴,并将每一帖子以其命名放入excel表格中

# -*- coding:utf-8 -*-import refrom urllib import request# 引入自定义的工作类 在此博文后会给出from tools import Toolsfrom fake_useragent import UserAgentagent = UserAgent()import xlwt""" https://tieba.ba...

2018-03-08 19:03:53 462 1

原创 从快代理网站中爬取代理ip与端口号并判断其是否可用

爬虫所用到的函数与基本思想:    1.初始化函数 url headers html result_ip(存放可用ip)    2.start函数 for循环遍历前10的ip  调用请求函数和解析函数    3.请求函数  url ip  如果ip为空,不使用代理ip发起请求获取源代码,ip不为none,说明这次请求是用来测试代理ip是否可用    4.解析函数   根据正则匹配ip_port数据...

2018-03-07 18:39:44 1670

原创 代理ip的用法

引入模块from urllib import request准备urlurl = 'http://www.baidu.com'准备代理ip地址proxy_ip = { 'http': '139.224.135.94:80'}根据代理ip创建代理对象proxy_handler = request.ProxyHandler(proxy_ip)自己创建一个发送请求的函数opener = req...

2018-03-07 18:12:11 1618

原创 爬取糗事百科并保存在数据库中

# 正则import re# 爬取网络数据from urllib import request, parse# 引入时间模块import time# 引入自己定义的工具类# Tools用来清洗数据# DBManger用来连接、关闭数据库并向数据库中插入数据# 注:tools文件会在此博文下边给出from tools import Tools, DBManger声明爬虫类,定义初...

2018-03-07 18:08:00 371

原创 关系模式 关系 关系的完整性

关系模式:是型。对关系的描述   静态的、稳定的关系:是值。关系模式造磨一时刻的状态或内容   动态的、随时间不断变化的关系模式和关系统称为关系,需根据上下文加以区分关系的完整性:实体完整性、参照完整性、用户定义的完整性                        实体完整性和参照完整性是关系模型必须满足的完整性的约束条件,被称为是关系的两个不变性,应该由关系系统自动支持...

2018-03-06 21:37:30 1380

原创 候选码 主码 主属性 非主属性 外码

候选码:若关系中的某一属性组的值能唯一的标识一个元组,则称该属性组为候选码             在最简单的情况下,候选码只包含一个属性姓名性别年龄张明男18李华女19在上边的表格中,姓名、性别和年龄均可做为候选码,我们需要从中选出一个作为主码主码:用于标识由多个码中选出的作为唯一识别关系元组的码,而所有的码又称为候选码。 码(候选码)中的属性称为主属性,而不在任何码中的出现的属性称为非主属性外...

2018-03-06 20:58:57 12120

原创 数据库中的两级映像/三级模式 数据的物理独立性与逻辑独立性 数据库语言 数据库管理员

从系统角度看,数据库系统的内部通常采用三级模式结构外模式(子模式或用户模式):介于模式和应用之间,是特定数据库用户的数据视图。面向具体的应用程序,定义在模式之上,但独立于存储模式和存储设备。通常,外模式是模式的子集。一个数据库可以有多个外模式,一个外模式被多个应用所使用,但是一个应用程序只能使用一个外模式。模式(逻辑模式):模式是数据库中全体数据的总体逻辑结构描述,是用户的公共数据视图      ...

2018-03-06 19:12:53 10701

原创 数据、数据库、数据库管理系统、数据库系统、数据库模式、数据模型

数据:是数据库中存储的基本对象,数据的含义称为数据的语义数据管理的基本操作:数据查询、数据更新(数据插入、数据删除、数据修改)实际应用对数据操作的要求:并发访问、面临故障、数据的安全性、数据的完整性、数据的一致性数据库(database,DB):是持久存储在计算机中有组织的、可共享的大量数据集合。                                       特征:1.数据按一定的数...

2018-03-06 18:05:54 963

原创 分别用类、函数与普通的方法爬取天堂网图片,并将其分类保存到文件夹中

1.普通方法引入需要的包# 当创建文件夹时,用到此包import os# 网络请求包from urllib import request, parse# 正则import refrom fake_useragent import UserAgentuseragent = UserAgent()准备url地址url = 'http://www.ivsky.com/tupian/zira...

2018-03-06 17:16:27 917

原创 写一个爬取智联招聘数据的类,并将数据保存在excel表格中

此爬虫的中各个函数的作用:    1.初始化函数        基础的url地址,请求头,用来记录HTML源代码属性,total_page总页数    2.start函数        爬虫的主函数    3.get_html函数        根据url地址获取html源代码,转换为str类型,并赋值得self.html    4.parse_total函数        从html源代码中根据...

2018-03-06 16:56:53 1744

原创 python中如何引用excel表格

1.需要引入xlwt包import xlwt2.创建一个工作簿对象workbook = xlwt.Workbook(encoding='utf-8')3.添加一张表sheet = workbook.add_sheet('python职位表')4.向表中添加数据 sheet.write(0, 0, '职位名称') sheet.write(0, 1, '工作地点') sheet....

2018-03-06 16:34:40 4002

原创 urllib的基本用法

#coding:utf-8# urllib urllib2import urllibfrom urllib import request,parse,response# 使用urllib发起请求rep = request.urlopen('http://www.baidu.com')# .read()函数读取响应中的响应数据result = rep.read()# decod...

2018-03-05 20:09:30 372

原创 验证手机号是否正确的正则表达式

phone_pat = re.compile('^(13\d|14[5|7]|15\d|166|17[3|6|7]|18\d)\d{8}$')while True: phone = input('请输入您的手机号:') res = re.search(phone_pat,phone) if res: print('正常手机号!') ...

2018-03-05 20:08:29 797

原创 正则表达式中的re

import re# 带有\n换行符的字符串string = ''' aaaaaa ssss dd f aasd'''# re.S 作用就是会将大字符串中的换行符看做一个普通的字符进行处理,这样可以\n也可以匹配到pattern = re.compile('a.*?d',re.S)res = re.search(pattern...

2018-03-05 20:07:59 167

原创 正则函数

 re模块是python中内置的用来支持正则表达式的模块import rematch( )函数 1.正则表达式  2.要进行查找的大字符串                                           如果找到结果,返回结果对象 ,没找到返回None                     要查找的子串必须位于大字符串中的开头位置才可以匹配成功,如果不在匹配失败,返回None...

2018-03-05 20:06:46 3075

原创 爬虫与反爬虫策略

                          爬虫程序  服务器 编写爬虫代码,发起请求,接收响应,爬取数据监控到某个时间短,访问量突然增大,并且发起请求的ip地址相 同,对User-Agent字段判断在发起请求时,添加User-Agent字段,模仿用户代理检测到某个ip访问频率过高,限制访问频率在发请求时,使用代理ip,设置请求间隔时间需要登陆之后,才能查看数据注册网站账号,模拟cooki...

2018-03-05 11:41:14 540

原创 Scrapy框架中设置编码格式

utf-8:全球通用编码ascii:能存储字母/数字/符号,美国专用gbk|gb2312|gb18030:能够存储汉字要生成经编码后的csv类型文件cmdline.execute(['scrapy', 'crawl', '爬虫文件名称', '-o', '文件名.csv', '-s', 'FEED_EXPORT_ENCODING="gb18030"'])例如:cmdline.execute(['sc...

2018-03-01 19:29:04 5821 1

原创 scrapy的基本用法----爬取天堂网图片

scrapy的基本用法1. 通过命令创建项目scrapy startproject 项目名称2. 用pycharm打开项目3. 通过命令创建爬虫scrapy genspider 爬虫名称 域名4. 配置settingsrobots_obey=FalseDownload_delay=0.5Cookie_enable=False5. 自定义UserAgentMiddleWare可以直接粘现成的或者自己...

2018-03-01 19:15:55 1122

原创 在scrapy框架下创建爬虫项目,创建爬虫文件,运行爬虫文件

一、创建项目在终端输入 scrapy startproject  项目名称例如:二、使用pycharm打开爬虫项目打开文件之后,如下。并对文件附以解释说明三、在pycharm终端创建爬虫项目说明:一个项目可以创建多个爬虫文件爬虫文件内容的解析:四、运行爬虫文件的方法一:在终端运行在终端执行文件时肯能会遇到以下错误:解决措施:在终端输入pip install pypiwin32方法二:建立运行文件,...

2018-03-01 18:10:03 16873 5

原创 scrapy 框架的下载与下载时常遇到的错误

python中用于爬虫的框架有三个:Scrapy   PySpider  Selenium  其中,Selenium:自动测试的一个框架下载scrapy命令框输入:pip install scrapy在下载时可能会出现以下错误:下面说明我遇到的错误与解决方法故障一:时间超时:解决方法:输入命令故障二:如下解决方法:下载安装VisualCppBuildTools_Full.exe文件即可...

2018-03-01 17:56:53 696

实验设计热门电影数据集

包括电影名字,电影类型,电影的上映时间,豆瓣评分,影片热度,主演的基本信息、导演基本信息等信息,仅适用于基本实验

2019-12-28

5基于requests的51job数据爬取并存储到csv中.py

此资源用xpath的方法来解析网页的内容,详细的介绍了下载网页、解析数据、将数据存入表格的过程。希望能给到你借鉴。

2018-12-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除