自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(118)
  • 收藏
  • 关注

原创 爬虫08-验证码的处理

1、用cookie模拟登录下面是用cookie模拟登录csdn的一个案例,cookie需要获取登录时的cookiefrom urllib import requestimport chardetheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, l...

2020-10-06 16:45:07 183 1

原创 爬虫12-太平洋汽车

import requestsfrom bs4 import BeautifulSoupdef check(items): if len(items) == 0: return "No Public House" else: return itemsdef got_html(url): headers = {'User-Age...

2018-11-01 15:42:25 619 1

原创 数据保存

1、常见的文件格式保存import jsondef save_data(data, filename): ''' 将数据已json文件的格式保存 :param data: 一般是非字符串的数据类型 比如说字典、列表等 :return: None ''' data = json.dumps(data, ensure_ascii=False)...

2018-10-31 10:36:45 301

原创 爬虫11-途牛网

import requestsfrom bs4 import BeautifulSoupdef got_html(url): headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) ' 'C...

2018-10-31 10:20:45 887

原创 爬虫15-bs4

Beautiful Soup 是一个 HTML/XML 的解析器,主要用于解析和提取 HTML/XML 数据。 它基于 HTML DOM 的,会载入整个文档,解析整个 DOM 树,因此时间和内存开销都会 大很多,所以性能要低于 lxml。BeautifulSoup 用来解析 HTML 比较简单,API 非常人性化,支持 CSS 选择器、Python 标准库中的 HTML 解析器,也支持 lxm...

2018-10-30 17:42:18 200

原创 爬虫14-xpath

 lxml是一个HTML/XML的解析器,主要功能是解析HTML/XML数据,通过pip install lxml可以安装lxml 1、lxml 可以自动修正 html 代码,例子里不仅补全了 li 标签,还添加了 body,html 标签,xpath标签的索引从1开始from lxml import etreetext = '''<div> <ul> ...

2018-10-30 16:38:29 170

原创 爬虫11-知乎

from selenium import webdriverimport timedriver = webdriver.Chrome()driver.maximize_window()driver.get('https://www.zhihu.com/explore')driver.find_element_by_link_text("登录").click()username = i...

2018-10-29 23:21:34 157

原创 爬虫10-百度贴吧

"""__title__ = ''__author__ = 'Thompson'__mtime__ = '2018/8/21'# code is far away from bugs with the god animal protecting I love animals. They taste delicious. ┏┓ ┏┓ ...

2018-10-29 23:19:14 165

原创 爬虫09-双色球

import requestsimport rehtml = requests.get('http://zst.aicai.com/ssq/openInfo/').content.decode('utf-8', 'ignore')pattern = re.compile('<td.*?>(.*?)</td>.*?<td.*?>(.*?)</td&...

2018-10-29 23:16:33 237

原创 爬虫08-链家

import requestsimport restart = int(input('起始页码:'))end = int(input('终止页码:'))for page in range(start, end+1): url = 'https://sh.lianjia.com/ershoufang/pg'+str(page) html = requests.get(ur...

2018-10-29 23:15:01 260

原创 面试题web-01

1、可变类型和不可变类型可变类型: 列表、集合、字典不可变类型: 整形、浮点型、字符串、元组、布尔。不可变类型中整形是一个比较特殊的类型,详细见https://blog.csdn.net/qwerLoL123456/article/details/809030612、深拷贝和浅拷贝# 浅拷贝a = [1, 2, 3]b = a.copy() # 或者 c = copy.c...

2018-10-26 22:21:24 182

原创 项目部署二

先完成项目的上传 解压缩 工作修改settings.py配置文件STATIC_ROOT = 'path' 静态资源收集存放的位置执行收集静态资源的命令python manage.py collectstatic创建对应的数据库 执行数据库的同步和sql脚本初始化的工作python manage.py makemigrationsuwsgi --http=ip:port --fi...

2018-10-26 21:50:35 158

原创 项目部署一

Ubuntu Nginx和Uwsgi1、生产环境为什么实现项目部署,为了实现动静分离普通的部署到linux服务器上1、申请服务器的账号2、部署前的准备工作    安装ftp工具    安装ssh工具    安装Mysql等数据库    项目上传的准备 压缩包的格式 linux下压缩包解压缩 .zip格式rm -rf works 删除works文件夹mkdir work...

2018-10-26 21:49:28 167

原创 爬虫07-美团

"""__title__ = ''__author__ = 'Thompson'__mtime__ = '2018/8/28'# code is far away from bugs with the god animal protecting I love animals. They taste delicious. ┏┓ ┏┓ ...

2018-10-22 12:27:20 344

原创 爬虫06-sina博客

"""__title__ = ''__author__ = 'Thompson'__mtime__ = '2018/7/25'# code is far away from bugs with the god animal protecting I love animals. They taste delicious. ┏┓ ┏┓ ...

2018-10-22 12:27:03 179

原创 爬虫05-B站验证码破解

import randomimport timefrom selenium.webdriver import ActionChainsfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.support.ui import WebDriverWaitfrom se...

2018-10-22 12:26:48 484

原创 爬虫04-网易科技新闻

"""__title__ = ''__author__ = 'Thompson'__mtime__ = '2018/7/26'# code is far away from bugs with the god animal protecting I love animals. They taste delicious. ┏┓ ┏┓ ...

2018-10-22 12:26:13 194

原创 爬虫03-京东数据采集

import timefrom selenium import webdriverfrom bs4 import BeautifulSoupurl = "https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&wq=%...

2018-10-22 12:25:47 691

原创 爬虫02-淘宝数据采集

"""__title__ = ''__author__ = 'Thompson'__mtime__ = '2018/7/24'# code is far away from bugs with the god animal protecting I love animals. They taste delicious. ┏┓ ┏┓ ...

2018-10-22 12:25:15 603

原创 爬虫01-人人网模拟登陆

import requests'''利用requests的session保持回话,访问那些必须登陆后才能访问的网站缺点:账号密码的提交action必须能够找到'''session = requests.session()headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537...

2018-10-21 22:47:06 297

原创 JavaScript-----运算符

数学运算符 加+  减-  乘*  除 /  求余%逻辑运算符 与 &&  或 ||  非 !关系运算符 >  <  >=  <=  !=  ==  =====进行比较时,会尽可能的将字符串转换为数字,即进行比较时只考虑值而不考虑数据类型===进行比较时,数据和数据类型都进行比较++i   i++  --i   i-- 前加加和前减减的优...

2018-10-18 10:51:50 155

翻译 机器学习01-简单了解

1. 什么是机器学习机器学习是一个计算机程序,针对某个特定的任务,从经验中学习,并且越做越好。对于机器学习来说最重要的是数据和模型(算法)。机器学习主要应用在语音识别:把语音作为输入 把文字作为输出;自然语言处理:软件理解文件的意思并给出相应的回应(比如说qq的小冰);人脸识别;推荐系统等2.机器学习的分类机器学习的分类主要分为两种:一种是有监督学习,一种是无监督学习有监督学习...

2018-10-16 18:41:45 182

原创 时间复杂度

1、时间复杂度定义:在计算机科学中,算法的时间复杂度是一个函数,它定性描述了该算法的运行时间。时间复杂度常用大O符号表述。 如果一个问题的规模是n,解这一问题的某一算法所需要的时间为函数T(n),若有某个辅助函数f(n),使得T(n)/f(n)的极限值(当n趋近于无穷大时)为不等于零的常数,则称f(n)是T(n)的同数量级函数。记作T(n)=O(f(n)),称O(f(n)) 为算法的渐进时间复...

2018-10-04 17:06:43 251

原创 双端队列

1. 双端队列(deque,全名double-ended queue),是一种具有队列和栈的性质的数据结构。 双端队列中的元素可以从两端弹出,其限定插入和删除操作在表的两端进行。 双端队列可以在队列任意一端入队和出队。2. 操作Deque() 创建一个空的双端队列add_front(item) 从队头加入一个item元素add_rear(item) 从队尾加入一个item元素...

2018-10-04 16:48:31 990 1

原创 队列

1. 队列(queue)假设队列是q=(a1,a2,……,an),那么a1就是队头元素,而an是队尾元素。 删除时,总是从a1开始,而插入时,总是在队列最后。 符合我们的习惯,排在第一个的优先出列,最后来的当然排在队伍最后。2. 队列操作Queue() 创建一个空的队列enqueue(item) 往队列中添加一个item元素dequeue() 从队列头部删除一个元素is...

2018-10-04 16:42:41 171

原创

1、栈,又称为堆栈,是一种容器,可存入数据元素、访问元素、删除元素。栈只允许在容器的一段进行插入数据和输出数据。栈先进后出,后进先出2、栈的操作有:Stack() 创建一个新的空栈push(item) 添加一个新的元素item到栈顶pop() 弹出栈顶元素peek() 返回栈顶元素is_empty() 判断栈是否为空size() 返回栈的大小3、栈的实现cla...

2018-10-04 16:29:01 164

原创

1、树是一种抽象数据类型(ADT)或是实作这种抽象数据类型的数据结构,用来模拟具有树状结构性质的数据集合。 它是由n(n>=1)个有限节点组成一个具有层次关系的集合 它看起来像一棵倒挂的树,根朝上,叶朝下。特点: 每个节点有零个或多个子节点; 没有父节点的节点称为根节点; 每一个非根节点有且只有一个父节点; 除了根节点外,每个子节点可以分为多个不相交的子树;节点的度:一个节点含有的子...

2018-09-14 10:08:05 135

原创 二分查找

二分查找法优点:比较次数少,查找速度快,平均性能好;缺点:要求待查表为有序表,且插入删除困难。使用场景:适用于不经常变动而查找频繁的有序列表原理:假设要搜索的表中元素是按升序排列a、将表中间位置记录的关键字与查找关键字比较b、如果两者相等,则查找成功;c、否则利用中间位置记录将表分成前、后两a个子表d、如果中间位置记录的关键字大于查找关键字,则进一步查找前一子表,否...

2018-09-14 09:40:02 164

原创 selenium-02-selenium执行js脚本

from selenium import webdriverimport timedriver = webdriver.Chrome()driver.get('https://search.jd.com/Search?keyword=iphone8&enc=utf-8&suggest=4.def.0.V16&wq=iphone&pvid=c7ae27e0d8...

2018-09-13 15:40:53 1365

原创 爬虫13-爬去喜马拉雅音频

 import requestsfrom lxml import etreeimport json'''爬去喜马拉雅音频的有声文学类中的大宅门的音频url是https://www.ximalaya.com/youshengshu/14495260/'''url = 'https://www.ximalaya.com/youshengshu/14495260/'headers ...

2018-09-13 15:05:03 531

原创 selenium-01-selenium的简单使用

 selenium模拟浏览器打开页面,获取页面资源from selenium import webdriverimport timeimport os# driver = webdriver.PhantomJS()# 构建处理器对象 Phantommjs是一个无界面的浏览器driver = webdriver.Chrome()driver.get('http://www.baid...

2018-09-13 11:31:40 158

原创 网络的相关知识

1、http和httpshttp(HyperText Transfer Protocol):称为超文本传输协议,是一个基于 TCP/IP 通信协议来传递数据,一个属于应用层的协议浏览器作为 HTTP 客户端通过 URL 向 HTTP 服务端即 WEB 服务器发送所有请求。Web 服 务器根据接收到的请求后,向客户端发送响应信息。HTTP协议是无状态的协议。一旦数据交换完毕,客户端与服务器端...

2018-09-12 22:35:29 205

原创 排序算法

1、冒泡排序冒泡排序(英语:Bubble Sort)是一种简单的排序算法。 它重复地遍历要排序的数列,一次比较两个元素,如果他们的顺序错误就把他们交换过来。 直到没有再需要交换,该数列排序完成升序排序过程 比较相邻的元素。如果第一个比第二个大,就交换他们两个 对每一对相邻元素作同样的工作,从开始第一对到结尾的最后一对。这步做完后,最后的元素会是最大的数。 针对所有的元素重复以上的步骤,除了...

2018-09-11 17:51:25 183

原创 双向链表

class Node(object): #节点的类 def __init__(self,item): self.item = item self.prev = None self.next = Noneclass DLinkList(object): #双向链表的类 def __init__(self): ...

2018-09-10 22:10:52 125

原创 单向链表

"""__title__ = ''__author__ = 'Thompson'__mtime__ = '2018/6/14'# code is far away from bugs with the god animal protecting I love animals. They taste delicious. ┏┓ ┏┓ ...

2018-09-10 21:29:47 121

原创 mongodb

1、创建用户创建一个超级用户use admindb.createUser(  {    user: "name",    pwd: "name123",    roles:    [      {        roles: "userAdminAnyDatabase",        db: "admin"      }    ]  })超级用户的role有两种,...

2018-09-10 19:47:38 155

原创 pandas基础使用

Pandas是一个强大的分析结构化数据的工具集,基于NumPy构建,提供了高级数据结构和数据操作工具,它是使Python成为强大而高效的数据分析环境的重要因素之一1、pandas的数据结构(1)SeriesSeries是一种类似于一维数组的对象,组成:一组数据(各种NumPy数据类型)一组与之对应的索引(数据标签)索引(index)在左,数据(values)在右索引是自...

2018-09-10 09:14:16 471

原创 matplotlib基础使用

1、matplotlib简介Python 的 2D绘图库,为Python构建一个Matlab式的绘图接口,通过 Matplotlib,开发者可以仅需要几行代码,便可以生成绘图,直方图,功率谱,条形图,错误图,散点图等2、matplotlib的使用(1)折线图import matplotlib.pyplot as pltimport numpy as npfig = plt....

2018-09-09 21:24:10 247

原创 numpy基础使用

# 数据分析的基础步骤:数据收集,数据处理,数据分析,数据展现# numpy的安装 pip install numpy# pandas的安装 pip install pandas# Matplotlib的安装:pip install matplotlib## jupeter notebook是ipython的升级版 一个Web应用程序 界面更友好 功能也更强大。# 可创建和共享代码 ...

2018-09-09 20:16:18 313

原创 爬虫12-scrapy框架settings的解读

BOT_NAME默认: 'scrapybot'当您使用 startproject 命令创建项目时其也被自动赋值。CONCURRENT_ITEMS默认: 100Item Processor(即 Item Pipeline) 同时处理(每个 response 的)item 的最大值。CONCURRENT_REQUESTS默认: 16Scrapy downloader 并...

2018-09-09 16:34:45 213

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除