2018年03月_dayun555

12月 11月 09月 03月 02月 01月

原创 bs4_lxml的基本用法

# -*- coding:utf-8 -*-# 需要下载bs4包 pip install bs4# lxml xpath会用到里边的treefrom bs4 import BeautifulSoupimport codecs# BeautifulSoup 是python支持的一个第三方的包，作用是用来解析网页，提取数据# lxml 第三方的解析包，解析html速度比较快，功能强大，...

2018-03-08 19:17:43 794

原创爬取豆瓣

此爬虫思想： 1.在get_html 中根据url地址,获取目标数据,判断请求的是否为完整影评的json数据,如果是将返回的数据赋值给json属性,如果不是就赋值html属性 2.在parse_list函数中,根据正则解析当前页的所有电影的链接,拼接完整的影评链接地址,发送请求,解析影评数据, 找到下一页的链接,发送请求,重新调用parse_list函数解析下一页数据.... ...

2018-03-08 19:08:38 1150

原创爬取百度贴吧精品贴,并将每一帖子以其命名放入excel表格中

# -*- coding:utf-8 -*-import refrom urllib import request# 引入自定义的工作类在此博文后会给出from tools import Toolsfrom fake_useragent import UserAgentagent = UserAgent()import xlwt""" https://tieba.ba...

2018-03-08 19:03:53 463 1

原创从快代理网站中爬取代理ip与端口号并判断其是否可用

爬虫所用到的函数与基本思想： 1.初始化函数 url headers html result_ip（存放可用ip） 2.start函数 for循环遍历前10的ip 调用请求函数和解析函数 3.请求函数 url ip 如果ip为空，不使用代理ip发起请求获取源代码，ip不为none,说明这次请求是用来测试代理ip是否可用 4.解析函数根据正则匹配ip_port数据...

2018-03-07 18:39:44 1670

原创代理ip的用法

引入模块from urllib import request准备urlurl = 'http://www.baidu.com'准备代理ip地址proxy_ip = { 'http': '139.224.135.94:80'}根据代理ip创建代理对象proxy_handler = request.ProxyHandler(proxy_ip)自己创建一个发送请求的函数opener = req...

2018-03-07 18:12:11 1618

原创爬取糗事百科并保存在数据库中

# 正则import re# 爬取网络数据from urllib import request, parse# 引入时间模块import time# 引入自己定义的工具类# Tools用来清洗数据# DBManger用来连接、关闭数据库并向数据库中插入数据# 注：tools文件会在此博文下边给出from tools import Tools, DBManger声明爬虫类，定义初...

2018-03-07 18:08:00 371

原创关系模式关系关系的完整性

关系模式：是型。对关系的描述静态的、稳定的关系：是值。关系模式造磨一时刻的状态或内容动态的、随时间不断变化的关系模式和关系统称为关系，需根据上下文加以区分关系的完整性：实体完整性、参照完整性、用户定义的完整性实体完整性和参照完整性是关系模型必须满足的完整性的约束条件，被称为是关系的两个不变性，应该由关系系统自动支持...

2018-03-06 21:37:30 1380

原创候选码主码主属性非主属性外码

候选码：若关系中的某一属性组的值能唯一的标识一个元组，则称该属性组为候选码在最简单的情况下，候选码只包含一个属性姓名性别年龄张明男18李华女19在上边的表格中，姓名、性别和年龄均可做为候选码，我们需要从中选出一个作为主码主码：用于标识由多个码中选出的作为唯一识别关系元组的码，而所有的码又称为候选码。码（候选码）中的属性称为主属性，而不在任何码中的出现的属性称为非主属性外...

2018-03-06 20:58:57 12121

原创数据库中的两级映像/三级模式数据的物理独立性与逻辑独立性数据库语言数据库管理员

从系统角度看，数据库系统的内部通常采用三级模式结构外模式（子模式或用户模式）：介于模式和应用之间，是特定数据库用户的数据视图。面向具体的应用程序，定义在模式之上，但独立于存储模式和存储设备。通常，外模式是模式的子集。一个数据库可以有多个外模式，一个外模式被多个应用所使用，但是一个应用程序只能使用一个外模式。模式（逻辑模式）：模式是数据库中全体数据的总体逻辑结构描述，是用户的公共数据视图 ...

2018-03-06 19:12:53 10716

原创数据、数据库、数据库管理系统、数据库系统、数据库模式、数据模型

数据：是数据库中存储的基本对象，数据的含义称为数据的语义数据管理的基本操作：数据查询、数据更新（数据插入、数据删除、数据修改）实际应用对数据操作的要求：并发访问、面临故障、数据的安全性、数据的完整性、数据的一致性数据库（database,DB）：是持久存储在计算机中有组织的、可共享的大量数据集合。特征：1.数据按一定的数...

2018-03-06 18:05:54 963

原创分别用类、函数与普通的方法爬取天堂网图片，并将其分类保存到文件夹中

1.普通方法引入需要的包# 当创建文件夹时，用到此包import os# 网络请求包from urllib import request, parse# 正则import refrom fake_useragent import UserAgentuseragent = UserAgent()准备url地址url = 'http://www.ivsky.com/tupian/zira...

2018-03-06 17:16:27 917

原创写一个爬取智联招聘数据的类，并将数据保存在excel表格中

此爬虫的中各个函数的作用： 1.初始化函数基础的url地址，请求头，用来记录HTML源代码属性，total_page总页数 2.start函数爬虫的主函数 3.get_html函数根据url地址获取html源代码，转换为str类型，并赋值得self.html 4.parse_total函数从html源代码中根据...

2018-03-06 16:56:53 1744

原创 python中如何引用excel表格

1.需要引入xlwt包import xlwt2.创建一个工作簿对象workbook = xlwt.Workbook(encoding='utf-8')3.添加一张表sheet = workbook.add_sheet('python职位表')4.向表中添加数据 sheet.write(0, 0, '职位名称') sheet.write(0, 1, '工作地点') sheet....

2018-03-06 16:34:40 4004

原创 urllib的基本用法

#coding:utf-8# urllib urllib2import urllibfrom urllib import request,parse,response# 使用urllib发起请求rep = request.urlopen('http://www.baidu.com')# .read()函数读取响应中的响应数据result = rep.read()# decod...

2018-03-05 20:09:30 372

原创验证手机号是否正确的正则表达式

phone_pat = re.compile('^(13\d|14[5|7]|15\d|166|17[3|6|7]|18\d)\d{8}$')while True: phone = input('请输入您的手机号:') res = re.search(phone_pat,phone) if res: print('正常手机号!') ...

2018-03-05 20:08:29 797

原创正则表达式中的re

import re# 带有\n换行符的字符串string = ''' aaaaaa ssss dd f aasd'''# re.S 作用就是会将大字符串中的换行符看做一个普通的字符进行处理,这样可以\n也可以匹配到pattern = re.compile('a.*?d',re.S)res = re.search(pattern...

2018-03-05 20:07:59 167

原创正则函数

re模块是python中内置的用来支持正则表达式的模块import rematch( )函数 1.正则表达式 2.要进行查找的大字符串如果找到结果,返回结果对象 ,没找到返回None 要查找的子串必须位于大字符串中的开头位置才可以匹配成功,如果不在匹配失败,返回None...

2018-03-05 20:06:46 3075

原创爬虫与反爬虫策略

爬虫程序服务器编写爬虫代码，发起请求，接收响应，爬取数据监控到某个时间短，访问量突然增大，并且发起请求的ip地址相同，对User-Agent字段判断在发起请求时，添加User-Agent字段，模仿用户代理检测到某个ip访问频率过高，限制访问频率在发请求时，使用代理ip，设置请求间隔时间需要登陆之后，才能查看数据注册网站账号，模拟cooki...

2018-03-05 11:41:14 540

utf-8:全球通用编码ascii:能存储字母/数字/符号,美国专用gbk|gb2312|gb18030:能够存储汉字要生成经编码后的csv类型文件cmdline.execute(['scrapy', 'crawl', '爬虫文件名称', '-o', '文件名.csv', '-s', 'FEED_EXPORT_ENCODING="gb18030"'])例如：cmdline.execute(['sc...

2018-03-01 19:29:04 5821 1

原创 scrapy的基本用法----爬取天堂网图片

scrapy的基本用法1. 通过命令创建项目scrapy startproject 项目名称2. 用pycharm打开项目3. 通过命令创建爬虫scrapy genspider 爬虫名称域名4. 配置settingsrobots_obey=FalseDownload_delay=0.5Cookie_enable=False5. 自定义UserAgentMiddleWare可以直接粘现成的或者自己...

2018-03-01 19:15:55 1123

原创在scrapy框架下创建爬虫项目，创建爬虫文件，运行爬虫文件

一、创建项目在终端输入 scrapy startproject 项目名称例如：二、使用pycharm打开爬虫项目打开文件之后，如下。并对文件附以解释说明三、在pycharm终端创建爬虫项目说明:一个项目可以创建多个爬虫文件爬虫文件内容的解析：四、运行爬虫文件的方法一：在终端运行在终端执行文件时肯能会遇到以下错误：解决措施：在终端输入pip install pypiwin32方法二：建立运行文件，...

2018-03-01 18:10:03 16874 5

原创 scrapy 框架的下载与下载时常遇到的错误

python中用于爬虫的框架有三个:Scrapy PySpider Selenium 其中，Selenium:自动测试的一个框架下载scrapy命令框输入：pip install scrapy在下载时可能会出现以下错误：下面说明我遇到的错误与解决方法故障一：时间超时：解决方法：输入命令故障二：如下解决方法：下载安装VisualCppBuildTools_Full.exe文件即可...

2018-03-01 17:56:53 696

实验设计热门电影数据集

包括电影名字，电影类型，电影的上映时间，豆瓣评分，影片热度，主演的基本信息、导演基本信息等信息，仅适用于基本实验

2019-12-28

5基于requests的51job数据爬取并存储到csv中.py

此资源用xpath的方法来解析网页的内容，详细的介绍了下载网页、解析数据、将数据存入表格的过程。希望能给到你借鉴。

2018-12-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

dayun555的博客