自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(108)
  • 收藏
  • 关注

原创 bs4-爬取图片--xpath复习

# -*- coding:utf-8 -*-from urllib import requestfrom bs4 import BeautifulSoupimport osfrom fake_useragent import UserAgentagent = UserAgent()class IvskySpider(object):    def __init__(self):        se...

2018-03-09 13:22:21 940

原创 bs4_lxml的基本用法(不同于正则和xpath)

1.本文件需要引用的index.html文件代码为:<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>bs4测试网页</title> <style>

2018-03-08 20:14:54 4240 1

原创 正则的应用--读取本地文件2--网页版解析--豆瓣

第一部分读取本地文件1.进入豆瓣主页,获取其网页源代码,保存下载到本地,由于代码过多,这里就不展现出来了2.进入影评主页,获取源代码,保存下载到本地3.在本地文件中进行解析test.json文件中代码为:{"body":"\n \n \n \n \n <div class=\"main-bd\">\n\n\n \n \n \n\n <div id=\...

2018-03-08 19:36:15 546

原创 正则的应用--读取本地文件1--例如豆瓣-codecs

1.之前ip没有被封,可以查询出 所有的评论# -*- coding:utf-8 -*-# codecs 打开文件可以指定编码方式import codecsimport refrom urllib import requestimport jsonfrom fake_useragent import UserAgentagent = UserAgent()with codecs....

2018-03-08 19:17:36 1365

原创 正则的应用--爬取百度贴吧NBA的精品贴详细的回复信息

1.代码中需要引入的包import refrom urllib import requestfrom fake_useragent import UserAgentagent = UserAgent()from tool import Toolsimport xlwt2.解析url爬取-----精品贴https://tieba.baidu.com/f?kw=nba&tab=good&amp...

2018-03-08 19:09:06 421

原创 正则的应用--糗事百科(数据写入数据库中)

一.基本知识1.delete from qsbk先删除数据库中的数据,在执行本文件2.需要引入的包import reimport timefrom tool import Tools, DBManagerfrom urllib import requestfrom fake_useragent import UserAgentagent = UserAgent()3.当网页在第一页的时候...

2018-03-07 18:16:44 232

原创 工具类 2018-3-7代码中引用

 1.工具类自己另外写一个文件,该文件中的类,满足对数据的某些处理,不用和数据类在一个文件中数据类文件可以直接引用# -*- coding:utf-8 -*-import reimport sqlite3class Tools(object): @classmethod def strip_char(cls, string): """ :p...

2018-03-07 18:06:56 229

原创 代理ip的用法

 1.代理ip用法例1   url = 'http://www.baidu.com' # 准备代理ip proxy_ip = { 'http': '139.224.135.94:80' } # 根据代理ip创建代理对象 proxy_handler = request.ProxyHandler(proxy_ip) # 自己创建一个发送...

2018-03-07 18:03:46 17277

原创 正则的应用--快代理网站

网站被封,自己写的只能获取一页数据,老师写的,不能检测是否正确自己:# -*- coding:utf-8 -*-import refrom urllib import request, parseimport xlwtfrom fake_useragent import UserAgentagent = UserAgent()class IPSpider(object): ...

2018-03-07 18:00:00 223

原创 正则的应用-爬取内涵段子(加载更多-时间戳)

 一.基本知识1.下面的网页中'http://neihanshequ.com/joke/?is_json=0&app_name=neihanshequ_web&max_time=' is_json=0获取到的是html数据is_json=1获取到的是json数据2.时间戳只要有max_time就一直有数据本次爬取的网页没有下一页,只有“加载更多”,只有获取到max_time(不同)...

2018-03-07 17:56:42 398

原创 正则的应用--智联招聘--parse.urlencode/request/xlwt

一.包的引用1.正则import re2.请求from urllib import request, parse3. xlwt 操作Excel表格import xlwt例如:# 1.创建 一个工作簿对象 workbook = xlwt.Workbook(encoding='utf-8') # 2.添加一张表 sheet = workbook.add_sheet('pytho...

2018-03-06 17:27:01 360 1

原创 正则应用--爬取天堂图片网图片(普通版本,函数版本,类版本)

第一部分:普通版本一.os包的用法先引入import os# 如果文件夹不存在,创建文件夹 if not os.path.exists(title): # 创建文件夹 os.makedirs(title)二.用urlopen发起请求 发起请求,接收响应response = request.urlopen(req)  将返回的字节数据 转换为str数据html...

2018-03-06 17:01:40 649

原创 使用urllib发起请求- urlopen发起请求read/decode/getcode/info/geturl-post请求抽屉网

 引入本文件需要用到的包import urllibfrom urllib import request, parse, response一.使用urllib发起请求.read() 函数读取响应中的响应数据decode()  将bytes类型的数据转换为str类型rep = request.urlopen('http://www.baidu.com')# .read() 函数读取响应中的响应数...

2018-03-05 19:47:50 1228

原创 正则re.S-验证手机号是否正确

1.带有\n换行符的字符串re.S  作用就是会将大字符串中的换行符看做一个普通的字符进行处理,这样可以\n也可以匹配到# -*- coding:utf-8 -*-import re# 带有\n换行符的字符串string = ''' aaaaaaa ssss dd f aasd'''# re.S 作用就是会将大字符串中的换行符...

2018-03-05 18:58:15 551

原创 正则函数--search/match/findall/sub/split

 1.正则函数:    1.match()    2.search()    match,search结果只能匹配一个  2.findall()findall()最终返回的一个列表,列表中是符合正则条件的所有结果string = 'hell8oworldhe8llo,h4e,hell,h6ool'# string.replace()pattern = re.compile('h.*?l')#...

2018-03-05 18:18:35 356

原创 正则表达式- match() -group()-search()-贪婪模式

一. re模块是python中内置的用来支持正则表达式的模块二.正则表达式的运用      1.准备正则string = 'hello world'pattern = re.compile('world')      2.使用正则表达式,从大字符串中搜索符合正则的字符串  match()  参数:1.正则表达式2.要进行查找的大字符串  match() 如果找到结果,返回对象结果,没有找到返回No...

2018-03-05 18:07:32 3193

原创 DNS、请求报文、响应报文,爬虫与反爬虫之间的斗争/目的,cookie和session的区别

 1.DNS    DNS 域名解析服务 把域名转换换为ip地址再进行访问 DNS:114.114.114.114   8.8.8.82. 请求报文:        请求行:请求方法,请求地址,协议版本        请求头:User-Agent,Cookie,Host...        空行        请求数据3. 响应报文:        响应行:协议版本,状态码(200、302、404...

2018-03-05 12:20:51 614

原创 基于scrapy框架下爬取智联招聘--并把信息存储下来

1.在之前爬取的JobSpider中的Terminal终端中,直接创建新的文件scrapy genspider zlzp baidu.com2.开始解析数据1) 先大致规划一下需要几个函数2) 函数1跳转到函数2使用 yield scrapy.Request(url,callback,meta,dont_filter)# -*- coding: utf-8 -*-import scrapyfr...

2018-03-02 18:00:32 2595 2

原创 scrapy框架下爬取51job网站信息,并存储到表格中

1. 通过命令创建项目scrapy startproject JobSpider2. 用pycharm打开项目3. 通过命令创建爬虫scrapy genspider job baidu.com4. 配置settingsrobots_obey=FalseDownload_delay=0.5Cookie_enable=FalseDOWNLOADER_MIDDLEWARES = { 'Job...

2018-03-02 17:53:15 2353 2

原创 利用scrapy框架爬取并下载天堂图片网的图片和数据

1. 通过命令创建项目        scrapy startproject IvskySpider2. 用pycharm打开项目3. 通过命令创建爬虫(Terminal中输入以下命令)        scrapy genspider ivsky ivsky.com4. 配置settings        robots_obey=False        Download_delay=0.5   ...

2018-03-01 18:55:47 939

原创 scrapy框架的使用方法

1.第一步:创建爬虫项目2.使用pycharm打开爬虫项目打开结果如下(目录结构):3.第三步:创建爬虫说明:在ivskyspider文件中创建,所以需要先进入ivskyspider说明:一个项目可以创建多个爬虫文件4.第四步:打开新建的爬虫文件ivsky.py文件结构如下:5.执行代码:方法一:打开Teminal方法二:在第一个IvskySpider的位置新建文件不想在终端运行程序时,先新建此文...

2018-03-01 17:50:23 5904

原创 xpath的相关知识--51job获取的数据写入表格

第一部分一.网页的解析方式    1.xpath(简单)    2.正则(最难)    3.css(需要懂网页的css)    4.bs4(比xpath难一点点)二.xpath的基本方法    1.环境准备:        火狐浏览器(49.0以下)        firebug        firepath    2.基本操作        // 元素标签名        例如://div,查...

2018-02-28 20:17:08 845 1

原创 将获取的电影数据写入网页中--css

第一部分1.网页模板:<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>电影信息网</title> <link rel="stylesheet" href=

2018-02-28 20:02:06 423

原创 session自动登录抽屉网(自动携带cookie)

1.获取useragent数据from fake_useragent import UserAgentagent = UserAgent()2. 如果通过session发请求,会自动携带cookie session简化了cookie的作用session = requests.session()3.完整代码# -*- coding:utf-8 -*-import requestsfrom fak...

2018-02-28 19:44:51 443

原创 cookie用法--抽屉网的自动登录(cookie是通过代码自动获取的)

 1.引用自己定义一个类from random_agent import RandomAgent2. 引用系统的包from fake_useragent import UserAgent3.创建对象agent = UserAgent()4. 不要重复造轮子 pip search 工具包名字   例如:pip search UserAgent" pip install fake_useragent5...

2018-02-28 19:40:06 945

原创 cookie用法

 1.Cookie基础概念    Cookie:小蛋糕,饼干    Cookie特点:        1.用于存储用户的某些信息(不包含隐私信息)        2.只用于存储少量数据        3.cookie是个文件,位于浏览器        4.cookie有生命周期,一旦网页退出,cookie就失效了2.例子:Cookie登录 抽屉网url = "http://dig.chouti.c...

2018-02-27 19:00:36 547

原创 基于requests的歌曲查询--两种写入文件的方法

代码实现功能:           将输入的要查询的歌曲名字存入name.txt文件中                     判断输入的名字是否在name.txt文件中,来确定是否可以写入文档            将搜索到的歌曲存入song.txt文件中1.代码中需要引入的包import requestsimport json# 操作文件的包import os 2.判断输入的名字是否为空或者换...

2018-02-27 18:21:42 449

原创 常见的requests的应用--GET/POST/PUT/DELETE/OPTION/HEAD

1. 下面四个都可以用于发送网页请求# import urllib# import urllib2# import urllib3# import httpimport requests2..使用requests发送get/post/put/delete等请求  GTT参数  URL?参数1=内容1&参数2=内容2...  注意:参数部分不能出现空格或者特殊字符3.例如:response ...

2018-02-27 18:13:12 1874

原创 概念总结--常见的状态码

1.常用状态码    1xx    2xx:一般表示成功    3xx:一般表示重定向    4xx:一般表示客户端错误    5xx:一般表示服务器错误    200 表示成功    404 服务器无法找到被请求页面    403 服务器拒绝访问权限不够 Forbidden    500 请求未完成,服务器遇到不可预知的情况    302 2.常用的请求方法        GET/POST   ...

2018-02-27 18:07:15 387

原创 通过修改请求头的User-Agent发送请求

1.    抓包工具    Fiddler    Charles:Charles可以监控浏览器发送和接收的所有数据2.get的参数 参数1:url,填网址 参数2:params,网址后需要添加的参数 参数3:**kwargs ,不定长键值对参数,一般 key=value    headers={}    cookies={} 或者 CookieJar    timeout=小数或者元组    3....

2018-02-27 18:05:15 14511

原创 号码归属地查询

# -*- coding:utf-8 -*-# 手机号归属地查询import requestsimport json# phone_number = input('请输入要查询的手机号:')phone = "13512345678"url = "https://www.baifubao.com/callback?cmd=1059&callback=phone&phone...

2018-02-26 19:10:11 399

原创 带框架--网页设计

<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>Title</title> <link rel="stylesheet" href="boots

2018-02-26 19:08:42 534

原创 html一些常用的标签

完整代码:<html> <head> <meta charset="utf-8"> <title>网页标题</title> <!--<link rel="stylesheet" href="">-->

2018-02-26 19:06:14 156

原创 电影下载

# -*- coding:utf-8 -*-import requestsfrom lxml import etreeurl = "https://www.dy2018.com/html/gndy/dyzz/index.html"response = requests.get(url)# 统一网页的编码格式# 下面这句话最好加上# response.encoding = response....

2018-02-26 19:00:28 2072

原创 图片下载

# -*- coding:utf-8 -*-# 获取网页源码/下载网页/图片/视频/音频...import requests# 解析网页相关数据from lxml import etree# 操作文件夹/路径import os# 1.下载网页源码# 2.解析网页源码(难度比较大)# 3.存储相关数据url = "http://www.ivsky.com/tupian/ziranfengguang/...

2018-02-26 18:55:02 240

原创 获取网页--爬取网页的图片存放在不同的文件夹中--下载图片--requests/lxml(etree)/os

# -*- coding:utf-8 -*-import requestsfrom lxml import etreeimport os第一部分:爬取网页的图片存放在不同的文件夹中1.获取网页,通过requests工具包实现(集成环境自带) 如果没有就手动安装 pip install requestsurl = "http://www.ivsky.com/tupian/ziranfen...

2018-02-24 17:51:37 884

原创 手机销售系统--数据库版--打包

# -*- coding:utf-8 -*-# 函数与函数之间空两行,class类中空一行import sqlite3# 1.轻量级数据库 2.跨平台 3.关系型数据库 4.python内置模块phone_list = []1.查询函数def query_phone(): results = cursor.execute('select * from phone') state...

2018-02-24 17:37:09 1127

原创 配置python3.6的环境--文件打包

1.卸载原来安装的python2和3版本的python,根据以下教程下载安装新的python环境网址为:https://864071694.gitbooks.io/pythonfullstackbook/content/di-er-82823a-python-huan-jing-an-zhuang/windowsxi-tong.html注意:不可以修改文件anaconda3的名字,否则会出现错误2...

2018-02-24 15:44:14 220

原创 学生信息存储到数据库中

# -*- coding:utf-8 -*-import sqlite3#模块类class Student(object): connect = sqlite3.connect('datebase.db') cursor = connect.cursor() sql = 'create table Stu(num integer primary key,nam

2018-02-05 20:19:43 3643

原创 数据库--查询

# -*- coding:utf-8 -*-import sqlite3# 1.连接数据库文件connect = sqlite3.connect('datebase.db')# 2.获取游标cursor = connect.cursor()# 3.准备sql语句# *表示查询所有字段,可以查询指定字段数据# N%查找以N开头的  %N查找以N结尾的 %N% 包含N的

2018-02-05 20:18:38 301

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除