心月流云-CSDN博客

原创 bs4-爬取图片--xpath复习

# -*- coding:utf-8 -*-from urllib import requestfrom bs4 import BeautifulSoupimport osfrom fake_useragent import UserAgentagent = UserAgent()class IvskySpider(object): def __init__(self): se...

2018-03-09 13:22:21 940

原创 bs4_lxml的基本用法（不同于正则和xpath）

1.本文件需要引用的index.html文件代码为：<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>bs4测试网页</title> <style>

2018-03-08 20:14:54 4240 1

原创正则的应用--读取本地文件2--网页版解析--豆瓣

第一部分读取本地文件1.进入豆瓣主页，获取其网页源代码，保存下载到本地，由于代码过多，这里就不展现出来了2.进入影评主页，获取源代码,保存下载到本地3.在本地文件中进行解析test.json文件中代码为：{"body":"\n \n \n \n \n <div class=\"main-bd\">\n\n\n \n \n \n\n <div id=\...

2018-03-08 19:36:15 546

原创正则的应用--读取本地文件1--例如豆瓣-codecs

1.之前ip没有被封，可以查询出所有的评论# -*- coding:utf-8 -*-# codecs 打开文件可以指定编码方式import codecsimport refrom urllib import requestimport jsonfrom fake_useragent import UserAgentagent = UserAgent()with codecs....

2018-03-08 19:17:36 1365

原创正则的应用--爬取百度贴吧NBA的精品贴详细的回复信息

1.代码中需要引入的包import refrom urllib import requestfrom fake_useragent import UserAgentagent = UserAgent()from tool import Toolsimport xlwt2.解析url爬取-----精品贴https://tieba.baidu.com/f?kw=nba&tab=good&amp...

2018-03-08 19:09:06 421

原创正则的应用--糗事百科（数据写入数据库中）

一.基本知识1.delete from qsbk先删除数据库中的数据，在执行本文件2.需要引入的包import reimport timefrom tool import Tools, DBManagerfrom urllib import requestfrom fake_useragent import UserAgentagent = UserAgent()3.当网页在第一页的时候...

2018-03-07 18:16:44 232

原创工具类 2018-3-7代码中引用

1.工具类自己另外写一个文件，该文件中的类，满足对数据的某些处理，不用和数据类在一个文件中数据类文件可以直接引用# -*- coding:utf-8 -*-import reimport sqlite3class Tools(object): @classmethod def strip_char(cls, string): """ :p...

2018-03-07 18:06:56 229

原创代理ip的用法

1.代理ip用法例1 url = 'http://www.baidu.com' # 准备代理ip proxy_ip = { 'http': '139.224.135.94:80' } # 根据代理ip创建代理对象 proxy_handler = request.ProxyHandler(proxy_ip) # 自己创建一个发送...

2018-03-07 18:03:46 17277

原创正则的应用--快代理网站

网站被封，自己写的只能获取一页数据，老师写的，不能检测是否正确自己：# -*- coding:utf-8 -*-import refrom urllib import request, parseimport xlwtfrom fake_useragent import UserAgentagent = UserAgent()class IPSpider(object): ...

2018-03-07 18:00:00 223

原创正则的应用-爬取内涵段子（加载更多-时间戳）

一.基本知识1.下面的网页中'http://neihanshequ.com/joke/?is_json=0&app_name=neihanshequ_web&max_time=' is_json=0获取到的是html数据is_json=1获取到的是json数据2.时间戳只要有max_time就一直有数据本次爬取的网页没有下一页，只有“加载更多”，只有获取到max_time(不同)...

2018-03-07 17:56:42 398

原创正则的应用--智联招聘--parse.urlencode/request/xlwt

一.包的引用1.正则import re2.请求from urllib import request, parse3. xlwt 操作Excel表格import xlwt例如：# 1.创建一个工作簿对象 workbook = xlwt.Workbook(encoding='utf-8') # 2.添加一张表 sheet = workbook.add_sheet('pytho...

2018-03-06 17:27:01 360 1

原创正则应用--爬取天堂图片网图片（普通版本，函数版本，类版本）

第一部分：普通版本一.os包的用法先引入import os# 如果文件夹不存在，创建文件夹 if not os.path.exists(title): # 创建文件夹 os.makedirs(title)二.用urlopen发起请求发起请求，接收响应response = request.urlopen(req) 将返回的字节数据转换为str数据html...

2018-03-06 17:01:40 649

原创使用urllib发起请求- urlopen发起请求read/decode/getcode/info/geturl-post请求抽屉网

引入本文件需要用到的包import urllibfrom urllib import request, parse, response一.使用urllib发起请求.read() 函数读取响应中的响应数据decode() 将bytes类型的数据转换为str类型rep = request.urlopen('http://www.baidu.com')# .read() 函数读取响应中的响应数...

2018-03-05 19:47:50 1228

原创正则re.S-验证手机号是否正确

1.带有\n换行符的字符串re.S 作用就是会将大字符串中的换行符看做一个普通的字符进行处理,这样可以\n也可以匹配到# -*- coding:utf-8 -*-import re# 带有\n换行符的字符串string = ''' aaaaaaa ssss dd f aasd'''# re.S 作用就是会将大字符串中的换行符...

2018-03-05 18:58:15 551

原创正则函数--search/match/findall/sub/split

1.正则函数： 1.match() 2.search() match,search结果只能匹配一个 2.findall()findall()最终返回的一个列表，列表中是符合正则条件的所有结果string = 'hell8oworldhe8llo,h4e,hell,h6ool'# string.replace()pattern = re.compile('h.*?l')#...

2018-03-05 18:18:35 356

原创正则表达式- match() -group()-search()-贪婪模式

一. re模块是python中内置的用来支持正则表达式的模块二.正则表达式的运用 1.准备正则string = 'hello world'pattern = re.compile('world') 2.使用正则表达式，从大字符串中搜索符合正则的字符串 match() 参数：1.正则表达式2.要进行查找的大字符串 match() 如果找到结果，返回对象结果，没有找到返回No...

2018-03-05 18:07:32 3193

原创 DNS、请求报文、响应报文，爬虫与反爬虫之间的斗争/目的，cookie和session的区别

1.DNS DNS 域名解析服务把域名转换换为ip地址再进行访问 DNS：114.114.114.114 8.8.8.82. 请求报文：请求行：请求方法，请求地址，协议版本请求头：User-Agent,Cookie,Host... 空行请求数据3. 响应报文：响应行：协议版本，状态码（200、302、404...

2018-03-05 12:20:51 614

1.在之前爬取的JobSpider中的Terminal终端中，直接创建新的文件scrapy genspider zlzp baidu.com2.开始解析数据1) 先大致规划一下需要几个函数2) 函数1跳转到函数2使用 yield scrapy.Request(url,callback,meta,dont_filter)# -*- coding: utf-8 -*-import scrapyfr...

2018-03-02 18:00:32 2595 2

原创 scrapy框架下爬取51job网站信息，并存储到表格中

1. 通过命令创建项目scrapy startproject JobSpider2. 用pycharm打开项目3. 通过命令创建爬虫scrapy genspider job baidu.com4. 配置settingsrobots_obey=FalseDownload_delay=0.5Cookie_enable=FalseDOWNLOADER_MIDDLEWARES = { 'Job...

2018-03-02 17:53:15 2353 2

原创利用scrapy框架爬取并下载天堂图片网的图片和数据

1. 通过命令创建项目 scrapy startproject IvskySpider2. 用pycharm打开项目3. 通过命令创建爬虫(Terminal中输入以下命令) scrapy genspider ivsky ivsky.com4. 配置settings robots_obey=False Download_delay=0.5 ...

2018-03-01 18:55:47 939

原创 scrapy框架的使用方法

1.第一步：创建爬虫项目2.使用pycharm打开爬虫项目打开结果如下(目录结构):3.第三步：创建爬虫说明：在ivskyspider文件中创建，所以需要先进入ivskyspider说明:一个项目可以创建多个爬虫文件4.第四步：打开新建的爬虫文件ivsky.py文件结构如下：5.执行代码：方法一：打开Teminal方法二：在第一个IvskySpider的位置新建文件不想在终端运行程序时，先新建此文...

2018-03-01 17:50:23 5904

原创 xpath的相关知识--51job获取的数据写入表格

第一部分一.网页的解析方式 1.xpath（简单） 2.正则（最难） 3.css（需要懂网页的css） 4.bs4（比xpath难一点点）二.xpath的基本方法 1.环境准备：火狐浏览器（49.0以下） firebug firepath 2.基本操作 // 元素标签名例如：//div,查...

2018-02-28 20:17:08 845 1

原创将获取的电影数据写入网页中--css

第一部分1.网页模板：<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>电影信息网</title> <link rel="stylesheet" href=

2018-02-28 20:02:06 423

原创 session自动登录抽屉网（自动携带cookie）

1.获取useragent数据from fake_useragent import UserAgentagent = UserAgent()2. 如果通过session发请求，会自动携带cookie session简化了cookie的作用session = requests.session()3.完整代码# -*- coding:utf-8 -*-import requestsfrom fak...

2018-02-28 19:44:51 443

原创 cookie用法--抽屉网的自动登录（cookie是通过代码自动获取的）

1.引用自己定义一个类from random_agent import RandomAgent2. 引用系统的包from fake_useragent import UserAgent3.创建对象agent = UserAgent()4. 不要重复造轮子 pip search 工具包名字例如：pip search UserAgent" pip install fake_useragent5...

2018-02-28 19:40:06 945

原创 cookie用法

1.Cookie基础概念 Cookie:小蛋糕，饼干 Cookie特点： 1.用于存储用户的某些信息（不包含隐私信息） 2.只用于存储少量数据 3.cookie是个文件，位于浏览器 4.cookie有生命周期，一旦网页退出，cookie就失效了2.例子：Cookie登录抽屉网url = "http://dig.chouti.c...

2018-02-27 19:00:36 547

原创基于requests的歌曲查询--两种写入文件的方法

代码实现功能：将输入的要查询的歌曲名字存入name.txt文件中判断输入的名字是否在name.txt文件中，来确定是否可以写入文档将搜索到的歌曲存入song.txt文件中1.代码中需要引入的包import requestsimport json# 操作文件的包import os 2.判断输入的名字是否为空或者换...

2018-02-27 18:21:42 449

原创常见的requests的应用--GET/POST/PUT/DELETE/OPTION/HEAD

1. 下面四个都可以用于发送网页请求# import urllib# import urllib2# import urllib3# import httpimport requests2..使用requests发送get/post/put/delete等请求 GTT参数 URL？参数1=内容1&参数2=内容2... 注意：参数部分不能出现空格或者特殊字符3.例如：response ...

2018-02-27 18:13:12 1874

原创概念总结--常见的状态码

1.常用状态码 1xx 2xx:一般表示成功 3xx：一般表示重定向 4xx：一般表示客户端错误 5xx：一般表示服务器错误 200 表示成功 404 服务器无法找到被请求页面 403 服务器拒绝访问权限不够 Forbidden 500 请求未完成，服务器遇到不可预知的情况 302 2.常用的请求方法 GET/POST ...

2018-02-27 18:07:15 387

原创通过修改请求头的User-Agent发送请求

1. 抓包工具 Fiddler Charles:Charles可以监控浏览器发送和接收的所有数据2.get的参数参数1：url，填网址参数2：params,网址后需要添加的参数参数3：**kwargs ,不定长键值对参数，一般 key=value headers={} cookies={} 或者 CookieJar timeout=小数或者元组 3....

2018-02-27 18:05:15 14511

原创号码归属地查询

# -*- coding:utf-8 -*-# 手机号归属地查询import requestsimport json# phone_number = input('请输入要查询的手机号：')phone = "13512345678"url = "https://www.baifubao.com/callback?cmd=1059&callback=phone&phone...

2018-02-26 19:10:11 399

原创带框架--网页设计

<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>Title</title> <link rel="stylesheet" href="boots

2018-02-26 19:08:42 534

原创 html一些常用的标签

完整代码：<html> <head> <meta charset="utf-8"> <title>网页标题</title>

2018-02-26 19:06:14 156

原创电影下载

# -*- coding:utf-8 -*-import requestsfrom lxml import etreeurl = "https://www.dy2018.com/html/gndy/dyzz/index.html"response = requests.get(url)# 统一网页的编码格式# 下面这句话最好加上# response.encoding = response....

2018-02-26 19:00:28 2072

原创图片下载

# -*- coding:utf-8 -*-# 获取网页源码/下载网页/图片/视频/音频...import requests# 解析网页相关数据from lxml import etree# 操作文件夹/路径import os# 1.下载网页源码# 2.解析网页源码（难度比较大）# 3.存储相关数据url = "http://www.ivsky.com/tupian/ziranfengguang/...

2018-02-26 18:55:02 240

原创获取网页--爬取网页的图片存放在不同的文件夹中--下载图片--requests/lxml(etree)/os

# -*- coding:utf-8 -*-import requestsfrom lxml import etreeimport os第一部分：爬取网页的图片存放在不同的文件夹中1.获取网页，通过requests工具包实现（集成环境自带）如果没有就手动安装 pip install requestsurl = "http://www.ivsky.com/tupian/ziranfen...

2018-02-24 17:51:37 884

原创手机销售系统--数据库版--打包

# -*- coding:utf-8 -*-# 函数与函数之间空两行，class类中空一行import sqlite3# 1.轻量级数据库 2.跨平台 3.关系型数据库 4.python内置模块phone_list = []1.查询函数def query_phone(): results = cursor.execute('select * from phone') state...

2018-02-24 17:37:09 1127

原创配置python3.6的环境--文件打包

1.卸载原来安装的python2和3版本的python，根据以下教程下载安装新的python环境网址为：https://864071694.gitbooks.io/pythonfullstackbook/content/di-er-82823a-python-huan-jing-an-zhuang/windowsxi-tong.html注意：不可以修改文件anaconda3的名字，否则会出现错误2...

2018-02-24 15:44:14 220

原创学生信息存储到数据库中

# -*- coding:utf-8 -*-import sqlite3#模块类class Student(object): connect = sqlite3.connect('datebase.db') cursor = connect.cursor() sql = 'create table Stu(num integer primary key,nam

2018-02-05 20:19:43 3643

原创数据库--查询

# -*- coding:utf-8 -*-import sqlite3# 1.连接数据库文件connect = sqlite3.connect('datebase.db')# 2.获取游标cursor = connect.cursor()# 3.准备sql语句# *表示查询所有字段，可以查询指定字段数据# N%查找以N开头的 %N查找以N结尾的 %N% 包含N的

2018-02-05 20:18:38 301

空空如也

空空如也