qwerLoL123456-CSDN博客

原创爬虫08-验证码的处理

1、用cookie模拟登录下面是用cookie模拟登录csdn的一个案例，cookie需要获取登录时的cookiefrom urllib import requestimport chardetheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, l...

2020-10-06 16:45:07 244 1

原创爬虫12-太平洋汽车

import requestsfrom bs4 import BeautifulSoupdef check(items): if len(items) == 0: return "No Public House" else: return itemsdef got_html(url): headers = {'User-Age...

2018-11-01 15:42:25 699 1

原创数据保存

1、常见的文件格式保存import jsondef save_data(data, filename): ''' 将数据已json文件的格式保存 :param data: 一般是非字符串的数据类型比如说字典、列表等 :return: None ''' data = json.dumps(data, ensure_ascii=False)...

2018-10-31 10:36:45 364

原创爬虫11-途牛网

import requestsfrom bs4 import BeautifulSoupdef got_html(url): headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) ' 'C...

2018-10-31 10:20:45 1001

原创爬虫15-bs4

Beautiful Soup 是一个 HTML/XML 的解析器，主要用于解析和提取 HTML/XML 数据。它基于 HTML DOM 的，会载入整个文档，解析整个 DOM 树，因此时间和内存开销都会大很多，所以性能要低于 lxml。BeautifulSoup 用来解析 HTML 比较简单，API 非常人性化，支持 CSS 选择器、Python 标准库中的 HTML 解析器，也支持 lxm...

2018-10-30 17:42:18 245

原创爬虫14-xpath

lxml是一个HTML/XML的解析器，主要功能是解析HTML/XML数据，通过pip install lxml可以安装lxml 1、lxml 可以自动修正 html 代码，例子里不仅补全了 li 标签，还添加了 body，html 标签，xpath标签的索引从1开始from lxml import etreetext = '''<div> <ul> ...

2018-10-30 16:38:29 214

原创爬虫11-知乎

from selenium import webdriverimport timedriver = webdriver.Chrome()driver.maximize_window()driver.get('https://www.zhihu.com/explore')driver.find_element_by_link_text("登录").click()username = i...

2018-10-29 23:21:34 197

原创爬虫10-百度贴吧

"""__title__ = ''__author__ = 'Thompson'__mtime__ = '2018/8/21'# code is far away from bugs with the god animal protecting I love animals. They taste delicious. ┏┓ ┏┓ ...

2018-10-29 23:19:14 207

原创爬虫09-双色球

import requestsimport rehtml = requests.get('http://zst.aicai.com/ssq/openInfo/').content.decode('utf-8', 'ignore')pattern = re.compile('<td.*?>(.*?)</td>.*?<td.*?>(.*?)</td&...

2018-10-29 23:16:33 286

原创爬虫08-链家

import requestsimport restart = int(input('起始页码：'))end = int(input('终止页码：'))for page in range(start, end+1): url = 'https://sh.lianjia.com/ershoufang/pg'+str(page) html = requests.get(ur...

2018-10-29 23:15:01 313

原创面试题web-01

1、可变类型和不可变类型可变类型：列表、集合、字典不可变类型：整形、浮点型、字符串、元组、布尔。不可变类型中整形是一个比较特殊的类型，详细见https://blog.csdn.net/qwerLoL123456/article/details/809030612、深拷贝和浅拷贝# 浅拷贝a = [1, 2, 3]b = a.copy() # 或者 c = copy.c...

2018-10-26 22:21:24 260

原创项目部署二

先完成项目的上传解压缩工作修改settings.py配置文件STATIC_ROOT = 'path' 静态资源收集存放的位置执行收集静态资源的命令python manage.py collectstatic创建对应的数据库执行数据库的同步和sql脚本初始化的工作python manage.py makemigrationsuwsgi --http=ip:port --fi...

2018-10-26 21:50:35 203

原创项目部署一

Ubuntu Nginx和Uwsgi1、生产环境为什么实现项目部署，为了实现动静分离普通的部署到linux服务器上1、申请服务器的账号2、部署前的准备工作安装ftp工具安装ssh工具安装Mysql等数据库项目上传的准备压缩包的格式 linux下压缩包解压缩 .zip格式rm -rf works 删除works文件夹mkdir work...

2018-10-26 21:49:28 218

原创爬虫07-美团

"""__title__ = ''__author__ = 'Thompson'__mtime__ = '2018/8/28'# code is far away from bugs with the god animal protecting I love animals. They taste delicious. ┏┓ ┏┓ ...

2018-10-22 12:27:20 441

原创爬虫06-sina博客

"""__title__ = ''__author__ = 'Thompson'__mtime__ = '2018/7/25'# code is far away from bugs with the god animal protecting I love animals. They taste delicious. ┏┓ ┏┓ ...

2018-10-22 12:27:03 223

原创爬虫05-B站验证码破解

import randomimport timefrom selenium.webdriver import ActionChainsfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.support.ui import WebDriverWaitfrom se...

2018-10-22 12:26:48 598

原创爬虫04-网易科技新闻

"""__title__ = ''__author__ = 'Thompson'__mtime__ = '2018/7/26'# code is far away from bugs with the god animal protecting I love animals. They taste delicious. ┏┓ ┏┓ ...

2018-10-22 12:26:13 242

原创爬虫03-京东数据采集

import timefrom selenium import webdriverfrom bs4 import BeautifulSoupurl = "https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&wq=%...

2018-10-22 12:25:47 944

原创爬虫02-淘宝数据采集

"""__title__ = ''__author__ = 'Thompson'__mtime__ = '2018/7/24'# code is far away from bugs with the god animal protecting I love animals. They taste delicious. ┏┓ ┏┓ ...

2018-10-22 12:25:15 691

原创爬虫01-人人网模拟登陆

import requests'''利用requests的session保持回话，访问那些必须登陆后才能访问的网站缺点：账号密码的提交action必须能够找到'''session = requests.session()headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537...

2018-10-21 22:47:06 344

原创 JavaScript-----运算符

数学运算符加+ 减- 乘* 除 / 求余%逻辑运算符与 && 或 || 非 !关系运算符 > < >= <= != == =====进行比较时，会尽可能的将字符串转换为数字，即进行比较时只考虑值而不考虑数据类型===进行比较时，数据和数据类型都进行比较++i i++ --i i-- 前加加和前减减的优...

2018-10-18 10:51:50 208

翻译机器学习01-简单了解

1. 什么是机器学习机器学习是一个计算机程序，针对某个特定的任务，从经验中学习，并且越做越好。对于机器学习来说最重要的是数据和模型(算法)。机器学习主要应用在语音识别：把语音作为输入把文字作为输出；自然语言处理：软件理解文件的意思并给出相应的回应(比如说qq的小冰)；人脸识别；推荐系统等2.机器学习的分类机器学习的分类主要分为两种：一种是有监督学习，一种是无监督学习有监督学习...

2018-10-16 18:41:45 229

1、时间复杂度定义：在计算机科学中，算法的时间复杂度是一个函数，它定性描述了该算法的运行时间。时间复杂度常用大O符号表述。如果一个问题的规模是n，解这一问题的某一算法所需要的时间为函数T(n)，若有某个辅助函数f(n)，使得T(n)/f(n)的极限值（当n趋近于无穷大时）为不等于零的常数，则称f(n)是T(n)的同数量级函数。记作T(n)=O(f(n))，称O(f(n)) 为算法的渐进时间复...

2018-10-04 17:06:43 293

原创双端队列

1. 双端队列（deque，全名double-ended queue），是一种具有队列和栈的性质的数据结构。双端队列中的元素可以从两端弹出，其限定插入和删除操作在表的两端进行。双端队列可以在队列任意一端入队和出队。2. 操作Deque() 创建一个空的双端队列add_front(item) 从队头加入一个item元素add_rear(item) 从队尾加入一个item元素...

2018-10-04 16:48:31 1068 1

原创队列

1. 队列（queue）假设队列是q=（a1，a2，……，an），那么a1就是队头元素，而an是队尾元素。删除时，总是从a1开始，而插入时，总是在队列最后。符合我们的习惯，排在第一个的优先出列，最后来的当然排在队伍最后。2. 队列操作Queue() 创建一个空的队列enqueue(item) 往队列中添加一个item元素dequeue() 从队列头部删除一个元素is...

2018-10-04 16:42:41 210

原创栈

1、栈，又称为堆栈，是一种容器，可存入数据元素、访问元素、删除元素。栈只允许在容器的一段进行插入数据和输出数据。栈先进后出，后进先出2、栈的操作有：Stack() 创建一个新的空栈push(item) 添加一个新的元素item到栈顶pop() 弹出栈顶元素peek() 返回栈顶元素is_empty() 判断栈是否为空size() 返回栈的大小3、栈的实现cla...

2018-10-04 16:29:01 211

原创树

1、树是一种抽象数据类型（ADT）或是实作这种抽象数据类型的数据结构，用来模拟具有树状结构性质的数据集合。它是由n（n>=1）个有限节点组成一个具有层次关系的集合它看起来像一棵倒挂的树，根朝上，叶朝下。特点：每个节点有零个或多个子节点；没有父节点的节点称为根节点；每一个非根节点有且只有一个父节点；除了根节点外，每个子节点可以分为多个不相交的子树；节点的度：一个节点含有的子...

2018-09-14 10:08:05 176

原创二分查找

二分查找法优点：比较次数少，查找速度快，平均性能好；缺点：要求待查表为有序表，且插入删除困难。使用场景：适用于不经常变动而查找频繁的有序列表原理：假设要搜索的表中元素是按升序排列a、将表中间位置记录的关键字与查找关键字比较b、如果两者相等，则查找成功；c、否则利用中间位置记录将表分成前、后两a个子表d、如果中间位置记录的关键字大于查找关键字，则进一步查找前一子表，否...

2018-09-14 09:40:02 222

原创 selenium-02-selenium执行js脚本

from selenium import webdriverimport timedriver = webdriver.Chrome()driver.get('https://search.jd.com/Search?keyword=iphone8&enc=utf-8&suggest=4.def.0.V16&wq=iphone&pvid=c7ae27e0d8...

2018-09-13 15:40:53 1429

原创爬虫13-爬去喜马拉雅音频

import requestsfrom lxml import etreeimport json'''爬去喜马拉雅音频的有声文学类中的大宅门的音频url是https://www.ximalaya.com/youshengshu/14495260/'''url = 'https://www.ximalaya.com/youshengshu/14495260/'headers ...

2018-09-13 15:05:03 581

原创 selenium-01-selenium的简单使用

selenium模拟浏览器打开页面，获取页面资源from selenium import webdriverimport timeimport os# driver = webdriver.PhantomJS()# 构建处理器对象 Phantommjs是一个无界面的浏览器driver = webdriver.Chrome()driver.get('http://www.baid...

2018-09-13 11:31:40 197

原创网络的相关知识

1、http和httpshttp(HyperText Transfer Protocol)：称为超文本传输协议，是一个基于 TCP/IP 通信协议来传递数据，一个属于应用层的协议浏览器作为 HTTP 客户端通过 URL 向 HTTP 服务端即 WEB 服务器发送所有请求。Web 服务器根据接收到的请求后，向客户端发送响应信息。HTTP协议是无状态的协议。一旦数据交换完毕，客户端与服务器端...

2018-09-12 22:35:29 261

原创排序算法

1、冒泡排序冒泡排序（英语：Bubble Sort）是一种简单的排序算法。它重复地遍历要排序的数列，一次比较两个元素，如果他们的顺序错误就把他们交换过来。直到没有再需要交换，该数列排序完成升序排序过程比较相邻的元素。如果第一个比第二个大，就交换他们两个对每一对相邻元素作同样的工作，从开始第一对到结尾的最后一对。这步做完后，最后的元素会是最大的数。针对所有的元素重复以上的步骤，除了...

2018-09-11 17:51:25 223

原创双向链表

class Node(object): #节点的类 def __init__(self,item): self.item = item self.prev = None self.next = Noneclass DLinkList(object): #双向链表的类 def __init__(self): ...

2018-09-10 22:10:52 161

原创单向链表

"""__title__ = ''__author__ = 'Thompson'__mtime__ = '2018/6/14'# code is far away from bugs with the god animal protecting I love animals. They taste delicious. ┏┓ ┏┓ ...

2018-09-10 21:29:47 160

原创 mongodb

1、创建用户创建一个超级用户use admindb.createUser( { user: "name", pwd: "name123", roles: [ { roles: "userAdminAnyDatabase", db: "admin" } ] })超级用户的role有两种，...

2018-09-10 19:47:38 196

原创 pandas基础使用

Pandas是一个强大的分析结构化数据的工具集，基于NumPy构建，提供了高级数据结构和数据操作工具，它是使Python成为强大而高效的数据分析环境的重要因素之一1、pandas的数据结构（1）SeriesSeries是一种类似于一维数组的对象，组成：一组数据（各种NumPy数据类型）一组与之对应的索引（数据标签）索引(index)在左，数据(values)在右索引是自...

2018-09-10 09:14:16 529

原创 matplotlib基础使用

1、matplotlib简介Python 的 2D绘图库，为Python构建一个Matlab式的绘图接口，通过 Matplotlib，开发者可以仅需要几行代码，便可以生成绘图，直方图，功率谱，条形图，错误图，散点图等2、matplotlib的使用（1）折线图import matplotlib.pyplot as pltimport numpy as npfig = plt....

2018-09-09 21:24:10 290

原创 numpy基础使用

# 数据分析的基础步骤：数据收集，数据处理，数据分析，数据展现# numpy的安装 pip install numpy# pandas的安装 pip install pandas# Matplotlib的安装：pip install matplotlib## jupeter notebook是ipython的升级版一个Web应用程序界面更友好功能也更强大。# 可创建和共享代码 ...

2018-09-09 20:16:18 362

原创爬虫12-scrapy框架settings的解读

BOT_NAME默认: 'scrapybot'当您使用 startproject 命令创建项目时其也被自动赋值。CONCURRENT_ITEMS默认: 100Item Processor(即 Item Pipeline) 同时处理(每个 response 的)item 的最大值。CONCURRENT_REQUESTS默认: 16Scrapy downloader 并...

2018-09-09 16:34:45 258

空空如也

空空如也