- 博客(22)
- 资源 (2)
- 收藏
- 关注
原创 bs4_lxml的基本用法
# -*- coding:utf-8 -*-# 需要下载bs4包 pip install bs4# lxml xpath会用到里边的treefrom bs4 import BeautifulSoupimport codecs# BeautifulSoup 是python支持的一个第三方的包,作用是用来解析网页,提取数据# lxml 第三方的解析包,解析html速度比较快,功能强大,...
2018-03-08 19:17:43 794
原创 爬取豆瓣
此爬虫思想: 1.在get_html 中根据url地址,获取目标数据,判断请求的是否为完整影评的json数据,如果是将返回的数据赋值给json属性,如果不是就赋值html属性 2.在parse_list函数中,根据正则解析当前页的所有电影的链接,拼接完整的影评链接地址,发送请求,解析影评数据, 找到下一页的链接,发送请求,重新调用parse_list函数解析下一页数据.... ...
2018-03-08 19:08:38 1150
原创 爬取百度贴吧精品贴,并将每一帖子以其命名放入excel表格中
# -*- coding:utf-8 -*-import refrom urllib import request# 引入自定义的工作类 在此博文后会给出from tools import Toolsfrom fake_useragent import UserAgentagent = UserAgent()import xlwt""" https://tieba.ba...
2018-03-08 19:03:53 463 1
原创 从快代理网站中爬取代理ip与端口号并判断其是否可用
爬虫所用到的函数与基本思想: 1.初始化函数 url headers html result_ip(存放可用ip) 2.start函数 for循环遍历前10的ip 调用请求函数和解析函数 3.请求函数 url ip 如果ip为空,不使用代理ip发起请求获取源代码,ip不为none,说明这次请求是用来测试代理ip是否可用 4.解析函数 根据正则匹配ip_port数据...
2018-03-07 18:39:44 1670
原创 代理ip的用法
引入模块from urllib import request准备urlurl = 'http://www.baidu.com'准备代理ip地址proxy_ip = { 'http': '139.224.135.94:80'}根据代理ip创建代理对象proxy_handler = request.ProxyHandler(proxy_ip)自己创建一个发送请求的函数opener = req...
2018-03-07 18:12:11 1618
原创 爬取糗事百科并保存在数据库中
# 正则import re# 爬取网络数据from urllib import request, parse# 引入时间模块import time# 引入自己定义的工具类# Tools用来清洗数据# DBManger用来连接、关闭数据库并向数据库中插入数据# 注:tools文件会在此博文下边给出from tools import Tools, DBManger声明爬虫类,定义初...
2018-03-07 18:08:00 371
原创 关系模式 关系 关系的完整性
关系模式:是型。对关系的描述 静态的、稳定的关系:是值。关系模式造磨一时刻的状态或内容 动态的、随时间不断变化的关系模式和关系统称为关系,需根据上下文加以区分关系的完整性:实体完整性、参照完整性、用户定义的完整性 实体完整性和参照完整性是关系模型必须满足的完整性的约束条件,被称为是关系的两个不变性,应该由关系系统自动支持...
2018-03-06 21:37:30 1380
原创 候选码 主码 主属性 非主属性 外码
候选码:若关系中的某一属性组的值能唯一的标识一个元组,则称该属性组为候选码 在最简单的情况下,候选码只包含一个属性姓名性别年龄张明男18李华女19在上边的表格中,姓名、性别和年龄均可做为候选码,我们需要从中选出一个作为主码主码:用于标识由多个码中选出的作为唯一识别关系元组的码,而所有的码又称为候选码。 码(候选码)中的属性称为主属性,而不在任何码中的出现的属性称为非主属性外...
2018-03-06 20:58:57 12121
原创 数据库中的两级映像/三级模式 数据的物理独立性与逻辑独立性 数据库语言 数据库管理员
从系统角度看,数据库系统的内部通常采用三级模式结构外模式(子模式或用户模式):介于模式和应用之间,是特定数据库用户的数据视图。面向具体的应用程序,定义在模式之上,但独立于存储模式和存储设备。通常,外模式是模式的子集。一个数据库可以有多个外模式,一个外模式被多个应用所使用,但是一个应用程序只能使用一个外模式。模式(逻辑模式):模式是数据库中全体数据的总体逻辑结构描述,是用户的公共数据视图 ...
2018-03-06 19:12:53 10716
原创 数据、数据库、数据库管理系统、数据库系统、数据库模式、数据模型
数据:是数据库中存储的基本对象,数据的含义称为数据的语义数据管理的基本操作:数据查询、数据更新(数据插入、数据删除、数据修改)实际应用对数据操作的要求:并发访问、面临故障、数据的安全性、数据的完整性、数据的一致性数据库(database,DB):是持久存储在计算机中有组织的、可共享的大量数据集合。 特征:1.数据按一定的数...
2018-03-06 18:05:54 963
原创 分别用类、函数与普通的方法爬取天堂网图片,并将其分类保存到文件夹中
1.普通方法引入需要的包# 当创建文件夹时,用到此包import os# 网络请求包from urllib import request, parse# 正则import refrom fake_useragent import UserAgentuseragent = UserAgent()准备url地址url = 'http://www.ivsky.com/tupian/zira...
2018-03-06 17:16:27 917
原创 写一个爬取智联招聘数据的类,并将数据保存在excel表格中
此爬虫的中各个函数的作用: 1.初始化函数 基础的url地址,请求头,用来记录HTML源代码属性,total_page总页数 2.start函数 爬虫的主函数 3.get_html函数 根据url地址获取html源代码,转换为str类型,并赋值得self.html 4.parse_total函数 从html源代码中根据...
2018-03-06 16:56:53 1744
原创 python中如何引用excel表格
1.需要引入xlwt包import xlwt2.创建一个工作簿对象workbook = xlwt.Workbook(encoding='utf-8')3.添加一张表sheet = workbook.add_sheet('python职位表')4.向表中添加数据 sheet.write(0, 0, '职位名称') sheet.write(0, 1, '工作地点') sheet....
2018-03-06 16:34:40 4004
原创 urllib的基本用法
#coding:utf-8# urllib urllib2import urllibfrom urllib import request,parse,response# 使用urllib发起请求rep = request.urlopen('http://www.baidu.com')# .read()函数读取响应中的响应数据result = rep.read()# decod...
2018-03-05 20:09:30 372
原创 验证手机号是否正确的正则表达式
phone_pat = re.compile('^(13\d|14[5|7]|15\d|166|17[3|6|7]|18\d)\d{8}$')while True: phone = input('请输入您的手机号:') res = re.search(phone_pat,phone) if res: print('正常手机号!') ...
2018-03-05 20:08:29 797
原创 正则表达式中的re
import re# 带有\n换行符的字符串string = ''' aaaaaa ssss dd f aasd'''# re.S 作用就是会将大字符串中的换行符看做一个普通的字符进行处理,这样可以\n也可以匹配到pattern = re.compile('a.*?d',re.S)res = re.search(pattern...
2018-03-05 20:07:59 167
原创 正则函数
re模块是python中内置的用来支持正则表达式的模块import rematch( )函数 1.正则表达式 2.要进行查找的大字符串 如果找到结果,返回结果对象 ,没找到返回None 要查找的子串必须位于大字符串中的开头位置才可以匹配成功,如果不在匹配失败,返回None...
2018-03-05 20:06:46 3075
原创 爬虫与反爬虫策略
爬虫程序 服务器 编写爬虫代码,发起请求,接收响应,爬取数据监控到某个时间短,访问量突然增大,并且发起请求的ip地址相 同,对User-Agent字段判断在发起请求时,添加User-Agent字段,模仿用户代理检测到某个ip访问频率过高,限制访问频率在发请求时,使用代理ip,设置请求间隔时间需要登陆之后,才能查看数据注册网站账号,模拟cooki...
2018-03-05 11:41:14 540
原创 Scrapy框架中设置编码格式
utf-8:全球通用编码ascii:能存储字母/数字/符号,美国专用gbk|gb2312|gb18030:能够存储汉字要生成经编码后的csv类型文件cmdline.execute(['scrapy', 'crawl', '爬虫文件名称', '-o', '文件名.csv', '-s', 'FEED_EXPORT_ENCODING="gb18030"'])例如:cmdline.execute(['sc...
2018-03-01 19:29:04 5821 1
原创 scrapy的基本用法----爬取天堂网图片
scrapy的基本用法1. 通过命令创建项目scrapy startproject 项目名称2. 用pycharm打开项目3. 通过命令创建爬虫scrapy genspider 爬虫名称 域名4. 配置settingsrobots_obey=FalseDownload_delay=0.5Cookie_enable=False5. 自定义UserAgentMiddleWare可以直接粘现成的或者自己...
2018-03-01 19:15:55 1123
原创 在scrapy框架下创建爬虫项目,创建爬虫文件,运行爬虫文件
一、创建项目在终端输入 scrapy startproject 项目名称例如:二、使用pycharm打开爬虫项目打开文件之后,如下。并对文件附以解释说明三、在pycharm终端创建爬虫项目说明:一个项目可以创建多个爬虫文件爬虫文件内容的解析:四、运行爬虫文件的方法一:在终端运行在终端执行文件时肯能会遇到以下错误:解决措施:在终端输入pip install pypiwin32方法二:建立运行文件,...
2018-03-01 18:10:03 16874 5
原创 scrapy 框架的下载与下载时常遇到的错误
python中用于爬虫的框架有三个:Scrapy PySpider Selenium 其中,Selenium:自动测试的一个框架下载scrapy命令框输入:pip install scrapy在下载时可能会出现以下错误:下面说明我遇到的错误与解决方法故障一:时间超时:解决方法:输入命令故障二:如下解决方法:下载安装VisualCppBuildTools_Full.exe文件即可...
2018-03-01 17:56:53 696
5基于requests的51job数据爬取并存储到csv中.py
2018-12-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人