- 博客(118)
- 收藏
- 关注
原创 爬虫08-验证码的处理
1、用cookie模拟登录下面是用cookie模拟登录csdn的一个案例,cookie需要获取登录时的cookiefrom urllib import requestimport chardetheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, l...
2020-10-06 16:45:07
183
1
原创 爬虫12-太平洋汽车
import requestsfrom bs4 import BeautifulSoupdef check(items): if len(items) == 0: return "No Public House" else: return itemsdef got_html(url): headers = {'User-Age...
2018-11-01 15:42:25
619
1
原创 数据保存
1、常见的文件格式保存import jsondef save_data(data, filename): ''' 将数据已json文件的格式保存 :param data: 一般是非字符串的数据类型 比如说字典、列表等 :return: None ''' data = json.dumps(data, ensure_ascii=False)...
2018-10-31 10:36:45
301
原创 爬虫11-途牛网
import requestsfrom bs4 import BeautifulSoupdef got_html(url): headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) ' 'C...
2018-10-31 10:20:45
887
原创 爬虫15-bs4
Beautiful Soup 是一个 HTML/XML 的解析器,主要用于解析和提取 HTML/XML 数据。 它基于 HTML DOM 的,会载入整个文档,解析整个 DOM 树,因此时间和内存开销都会 大很多,所以性能要低于 lxml。BeautifulSoup 用来解析 HTML 比较简单,API 非常人性化,支持 CSS 选择器、Python 标准库中的 HTML 解析器,也支持 lxm...
2018-10-30 17:42:18
200
原创 爬虫14-xpath
lxml是一个HTML/XML的解析器,主要功能是解析HTML/XML数据,通过pip install lxml可以安装lxml 1、lxml 可以自动修正 html 代码,例子里不仅补全了 li 标签,还添加了 body,html 标签,xpath标签的索引从1开始from lxml import etreetext = '''<div> <ul> ...
2018-10-30 16:38:29
170
原创 爬虫11-知乎
from selenium import webdriverimport timedriver = webdriver.Chrome()driver.maximize_window()driver.get('https://www.zhihu.com/explore')driver.find_element_by_link_text("登录").click()username = i...
2018-10-29 23:21:34
157
原创 爬虫10-百度贴吧
"""__title__ = ''__author__ = 'Thompson'__mtime__ = '2018/8/21'# code is far away from bugs with the god animal protecting I love animals. They taste delicious. ┏┓ ┏┓ ...
2018-10-29 23:19:14
165
原创 爬虫09-双色球
import requestsimport rehtml = requests.get('http://zst.aicai.com/ssq/openInfo/').content.decode('utf-8', 'ignore')pattern = re.compile('<td.*?>(.*?)</td>.*?<td.*?>(.*?)</td&...
2018-10-29 23:16:33
237
原创 爬虫08-链家
import requestsimport restart = int(input('起始页码:'))end = int(input('终止页码:'))for page in range(start, end+1): url = 'https://sh.lianjia.com/ershoufang/pg'+str(page) html = requests.get(ur...
2018-10-29 23:15:01
260
原创 面试题web-01
1、可变类型和不可变类型可变类型: 列表、集合、字典不可变类型: 整形、浮点型、字符串、元组、布尔。不可变类型中整形是一个比较特殊的类型,详细见https://blog.csdn.net/qwerLoL123456/article/details/809030612、深拷贝和浅拷贝# 浅拷贝a = [1, 2, 3]b = a.copy() # 或者 c = copy.c...
2018-10-26 22:21:24
182
原创 项目部署二
先完成项目的上传 解压缩 工作修改settings.py配置文件STATIC_ROOT = 'path' 静态资源收集存放的位置执行收集静态资源的命令python manage.py collectstatic创建对应的数据库 执行数据库的同步和sql脚本初始化的工作python manage.py makemigrationsuwsgi --http=ip:port --fi...
2018-10-26 21:50:35
158
原创 项目部署一
Ubuntu Nginx和Uwsgi1、生产环境为什么实现项目部署,为了实现动静分离普通的部署到linux服务器上1、申请服务器的账号2、部署前的准备工作 安装ftp工具 安装ssh工具 安装Mysql等数据库 项目上传的准备 压缩包的格式 linux下压缩包解压缩 .zip格式rm -rf works 删除works文件夹mkdir work...
2018-10-26 21:49:28
167
原创 爬虫07-美团
"""__title__ = ''__author__ = 'Thompson'__mtime__ = '2018/8/28'# code is far away from bugs with the god animal protecting I love animals. They taste delicious. ┏┓ ┏┓ ...
2018-10-22 12:27:20
344
原创 爬虫06-sina博客
"""__title__ = ''__author__ = 'Thompson'__mtime__ = '2018/7/25'# code is far away from bugs with the god animal protecting I love animals. They taste delicious. ┏┓ ┏┓ ...
2018-10-22 12:27:03
179
原创 爬虫05-B站验证码破解
import randomimport timefrom selenium.webdriver import ActionChainsfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.support.ui import WebDriverWaitfrom se...
2018-10-22 12:26:48
484
原创 爬虫04-网易科技新闻
"""__title__ = ''__author__ = 'Thompson'__mtime__ = '2018/7/26'# code is far away from bugs with the god animal protecting I love animals. They taste delicious. ┏┓ ┏┓ ...
2018-10-22 12:26:13
194
原创 爬虫03-京东数据采集
import timefrom selenium import webdriverfrom bs4 import BeautifulSoupurl = "https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&wq=%...
2018-10-22 12:25:47
691
原创 爬虫02-淘宝数据采集
"""__title__ = ''__author__ = 'Thompson'__mtime__ = '2018/7/24'# code is far away from bugs with the god animal protecting I love animals. They taste delicious. ┏┓ ┏┓ ...
2018-10-22 12:25:15
603
原创 爬虫01-人人网模拟登陆
import requests'''利用requests的session保持回话,访问那些必须登陆后才能访问的网站缺点:账号密码的提交action必须能够找到'''session = requests.session()headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537...
2018-10-21 22:47:06
297
原创 JavaScript-----运算符
数学运算符 加+ 减- 乘* 除 / 求余%逻辑运算符 与 && 或 || 非 !关系运算符 > < >= <= != == =====进行比较时,会尽可能的将字符串转换为数字,即进行比较时只考虑值而不考虑数据类型===进行比较时,数据和数据类型都进行比较++i i++ --i i-- 前加加和前减减的优...
2018-10-18 10:51:50
155
翻译 机器学习01-简单了解
1. 什么是机器学习机器学习是一个计算机程序,针对某个特定的任务,从经验中学习,并且越做越好。对于机器学习来说最重要的是数据和模型(算法)。机器学习主要应用在语音识别:把语音作为输入 把文字作为输出;自然语言处理:软件理解文件的意思并给出相应的回应(比如说qq的小冰);人脸识别;推荐系统等2.机器学习的分类机器学习的分类主要分为两种:一种是有监督学习,一种是无监督学习有监督学习...
2018-10-16 18:41:45
182
原创 时间复杂度
1、时间复杂度定义:在计算机科学中,算法的时间复杂度是一个函数,它定性描述了该算法的运行时间。时间复杂度常用大O符号表述。 如果一个问题的规模是n,解这一问题的某一算法所需要的时间为函数T(n),若有某个辅助函数f(n),使得T(n)/f(n)的极限值(当n趋近于无穷大时)为不等于零的常数,则称f(n)是T(n)的同数量级函数。记作T(n)=O(f(n)),称O(f(n)) 为算法的渐进时间复...
2018-10-04 17:06:43
251
原创 双端队列
1. 双端队列(deque,全名double-ended queue),是一种具有队列和栈的性质的数据结构。 双端队列中的元素可以从两端弹出,其限定插入和删除操作在表的两端进行。 双端队列可以在队列任意一端入队和出队。2. 操作Deque() 创建一个空的双端队列add_front(item) 从队头加入一个item元素add_rear(item) 从队尾加入一个item元素...
2018-10-04 16:48:31
990
1
原创 队列
1. 队列(queue)假设队列是q=(a1,a2,……,an),那么a1就是队头元素,而an是队尾元素。 删除时,总是从a1开始,而插入时,总是在队列最后。 符合我们的习惯,排在第一个的优先出列,最后来的当然排在队伍最后。2. 队列操作Queue() 创建一个空的队列enqueue(item) 往队列中添加一个item元素dequeue() 从队列头部删除一个元素is...
2018-10-04 16:42:41
171
原创 栈
1、栈,又称为堆栈,是一种容器,可存入数据元素、访问元素、删除元素。栈只允许在容器的一段进行插入数据和输出数据。栈先进后出,后进先出2、栈的操作有:Stack() 创建一个新的空栈push(item) 添加一个新的元素item到栈顶pop() 弹出栈顶元素peek() 返回栈顶元素is_empty() 判断栈是否为空size() 返回栈的大小3、栈的实现cla...
2018-10-04 16:29:01
164
原创 树
1、树是一种抽象数据类型(ADT)或是实作这种抽象数据类型的数据结构,用来模拟具有树状结构性质的数据集合。 它是由n(n>=1)个有限节点组成一个具有层次关系的集合 它看起来像一棵倒挂的树,根朝上,叶朝下。特点: 每个节点有零个或多个子节点; 没有父节点的节点称为根节点; 每一个非根节点有且只有一个父节点; 除了根节点外,每个子节点可以分为多个不相交的子树;节点的度:一个节点含有的子...
2018-09-14 10:08:05
135
原创 二分查找
二分查找法优点:比较次数少,查找速度快,平均性能好;缺点:要求待查表为有序表,且插入删除困难。使用场景:适用于不经常变动而查找频繁的有序列表原理:假设要搜索的表中元素是按升序排列a、将表中间位置记录的关键字与查找关键字比较b、如果两者相等,则查找成功;c、否则利用中间位置记录将表分成前、后两a个子表d、如果中间位置记录的关键字大于查找关键字,则进一步查找前一子表,否...
2018-09-14 09:40:02
164
原创 selenium-02-selenium执行js脚本
from selenium import webdriverimport timedriver = webdriver.Chrome()driver.get('https://search.jd.com/Search?keyword=iphone8&enc=utf-8&suggest=4.def.0.V16&wq=iphone&pvid=c7ae27e0d8...
2018-09-13 15:40:53
1365
原创 爬虫13-爬去喜马拉雅音频
import requestsfrom lxml import etreeimport json'''爬去喜马拉雅音频的有声文学类中的大宅门的音频url是https://www.ximalaya.com/youshengshu/14495260/'''url = 'https://www.ximalaya.com/youshengshu/14495260/'headers ...
2018-09-13 15:05:03
531
原创 selenium-01-selenium的简单使用
selenium模拟浏览器打开页面,获取页面资源from selenium import webdriverimport timeimport os# driver = webdriver.PhantomJS()# 构建处理器对象 Phantommjs是一个无界面的浏览器driver = webdriver.Chrome()driver.get('http://www.baid...
2018-09-13 11:31:40
158
原创 网络的相关知识
1、http和httpshttp(HyperText Transfer Protocol):称为超文本传输协议,是一个基于 TCP/IP 通信协议来传递数据,一个属于应用层的协议浏览器作为 HTTP 客户端通过 URL 向 HTTP 服务端即 WEB 服务器发送所有请求。Web 服 务器根据接收到的请求后,向客户端发送响应信息。HTTP协议是无状态的协议。一旦数据交换完毕,客户端与服务器端...
2018-09-12 22:35:29
205
原创 排序算法
1、冒泡排序冒泡排序(英语:Bubble Sort)是一种简单的排序算法。 它重复地遍历要排序的数列,一次比较两个元素,如果他们的顺序错误就把他们交换过来。 直到没有再需要交换,该数列排序完成升序排序过程 比较相邻的元素。如果第一个比第二个大,就交换他们两个 对每一对相邻元素作同样的工作,从开始第一对到结尾的最后一对。这步做完后,最后的元素会是最大的数。 针对所有的元素重复以上的步骤,除了...
2018-09-11 17:51:25
183
原创 双向链表
class Node(object): #节点的类 def __init__(self,item): self.item = item self.prev = None self.next = Noneclass DLinkList(object): #双向链表的类 def __init__(self): ...
2018-09-10 22:10:52
125
原创 单向链表
"""__title__ = ''__author__ = 'Thompson'__mtime__ = '2018/6/14'# code is far away from bugs with the god animal protecting I love animals. They taste delicious. ┏┓ ┏┓ ...
2018-09-10 21:29:47
121
原创 mongodb
1、创建用户创建一个超级用户use admindb.createUser( { user: "name", pwd: "name123", roles: [ { roles: "userAdminAnyDatabase", db: "admin" } ] })超级用户的role有两种,...
2018-09-10 19:47:38
155
原创 pandas基础使用
Pandas是一个强大的分析结构化数据的工具集,基于NumPy构建,提供了高级数据结构和数据操作工具,它是使Python成为强大而高效的数据分析环境的重要因素之一1、pandas的数据结构(1)SeriesSeries是一种类似于一维数组的对象,组成:一组数据(各种NumPy数据类型)一组与之对应的索引(数据标签)索引(index)在左,数据(values)在右索引是自...
2018-09-10 09:14:16
471
原创 matplotlib基础使用
1、matplotlib简介Python 的 2D绘图库,为Python构建一个Matlab式的绘图接口,通过 Matplotlib,开发者可以仅需要几行代码,便可以生成绘图,直方图,功率谱,条形图,错误图,散点图等2、matplotlib的使用(1)折线图import matplotlib.pyplot as pltimport numpy as npfig = plt....
2018-09-09 21:24:10
247
原创 numpy基础使用
# 数据分析的基础步骤:数据收集,数据处理,数据分析,数据展现# numpy的安装 pip install numpy# pandas的安装 pip install pandas# Matplotlib的安装:pip install matplotlib## jupeter notebook是ipython的升级版 一个Web应用程序 界面更友好 功能也更强大。# 可创建和共享代码 ...
2018-09-09 20:16:18
313
原创 爬虫12-scrapy框架settings的解读
BOT_NAME默认: 'scrapybot'当您使用 startproject 命令创建项目时其也被自动赋值。CONCURRENT_ITEMS默认: 100Item Processor(即 Item Pipeline) 同时处理(每个 response 的)item 的最大值。CONCURRENT_REQUESTS默认: 16Scrapy downloader 并...
2018-09-09 16:34:45
213
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人