D_dalei-CSDN博客

原创 dataframe的操作

增加import pandas as pd加载usersdata = pd.read_excel(’./users.xlsx’)print(“data:\n”, data)print(‘data 的列索引：\n’, data.columns)给data 添加一列 next_year_agedata[‘next_year_age’] = data[‘age’] + 1data.loc...

2020-01-10 13:56:59 458

原创 pandas的统计分析

import pandas as pdimport numpy as np加载数据data = pd.read_excel("./meal_order_detail.xlsx")print(‘data：\n’, data)print(‘data 的列索引：\n’, data.columns)print(‘data 的数据类型：\n’, data.dtypes)print(’*’ * ...

2020-01-10 13:55:41 483

原创数据分析---Numpy库的使用

Numpy库random模块常用随机数生成函数seed：确定随机数生成器的种子permutation：返回一个序列的随机排列或返回一个随机排列的范围shuffle：对一个序列进行随机排序binomial：产生二项分布的随机数normal：产生正态分布的随机数beta：产生beta分布的随机数chisquare：产生卡方分布的随机数gamma：产生gamma分布的随机数unifo...

2020-01-07 19:38:21 477

原创数据分析 --数据的认识

数据集由数据对象组成一个数据对象代表一个实体(entity)数据对象又称为样本、实例、数据点、或对象数据行对应数据对象; 列对应属性数据对象用属性(attribute)描述属性(attribute)是一个数据字段，表示数据对象的一个特征类型标称属性(nominal)标称属性(nominal attribute) 其值是一些符号或者事物的名称。二元属性(binary)是一种标称...

2020-01-06 21:07:54 669

原创 Numpy数值计算-----PyCharm(python)

Numpy简介Numpy是用于数据科学计算的基础，不但能够完成科学计算任务，还能被用作高效地多维数据容器。用于存储和处理大型矩阵。Python提供了一个array模块，和list不同，它直接保存数值，但是由于 Python 的array模块不支持多维，也没有各种运算函数。 Numpy 弥补了这一遗憾。Numpy提供了一种存储单一数据类型的多维数组——ndarray(下文统称数组)数组对...

2020-01-06 20:04:01 2267

原创 python爬虫，代理池proxypool文件夹内容设置

api.pyfrom flask import Flask,gfrom proxypool.db import Reids_Client__all__=['app']app = Flask(__name__)def get_conn(): if not hasattr(g,'reids_client'): g.redis_client = Reids_Clie...

2019-12-30 18:58:02 629

原创 python爬虫 --爬取链家项目【高级版】

爬取链家项目需要用到代理池，代理池具体怎么设置可以去翻我之前的文章import hashlibimport requestsfrom lxml import etreeimport pymongoimport time,reimport threadingfrom queue import Queueclass Lianjia(threading.Thread): de...

2019-12-26 19:27:50 486

原创 python爬虫 --爬取链家项目【中级版】

爬取链家项目需要用到代理池，代理池具体怎么设置可以去翻我之前的文章import hashlibimport requestsfrom lxml import etreeimport pymongoimport time,reclass Lianjia(object): def __init__(self,url): self.url = url ...

2019-12-26 19:26:46 296

原创 python爬虫 --爬取链家项目【初级版】

爬取链家项目需要用到代理池，代理池具体怎么设置可以去翻我之前的文章import hashlibimport requestsfrom lxml import etreeimport pymongoimport time,redef get_proxies(): try: response = requests.get('http://localhost:500...

2019-12-26 19:25:25 702 1

原创 python爬虫数据库---MongDB---索引---hash--存储数据---迭代器---交集并集--数据结构--组合索引

btree索引和hash索引hash讲解mongodb存储数据的过程noql数据库的应用redis数据结构迭代器交集并集和补集数据结构组合索引

2019-12-26 19:03:28 257

原创 python知识图谱--xml---并发和并行--死锁---递归---数组--同步和异步请求---线程

xml的名称并发和并行产生死锁的条件代理服务器递归生产者和消费者数组同步请求和异步请求网易云思路线程的五种状态

2019-12-26 18:58:53 264

原创 python爬虫 ---Hash算法

Hash算法1.定义Hash ：散列，通过关于键值(key)的函数，将数据映射到内存存储中一个位置来访问。这个过程叫做Hash，这个映射函数称做散列函数，存放记录的数组称做散列表(Hash Table),又叫哈希表。简单地说，它是密码学中的一个重要的函数，一般以表示。这个函数可以将任意一段数据（一般称这段数据为“消息”）压缩成固定长度的字符串（一般称输出的字符串为“摘要”）。哈希函数需要...

2019-12-25 17:09:47 1044

原创 python爬虫 --多线程爬取笔趣网小说【晋级版】

import requestsfrom lxml import etreeimport osfrom queue import Queueimport threadingclass Biquge(threading.Thread): def __init__(self,url=None,name=None,q_novels=None): super().__ini...

2019-12-25 11:17:50 772

原创 python爬虫 --单线程爬取笔趣网的小说【基础版】

import requestsfrom lxml import etreeimport osdef get_proxies(): try: response = requests.get('http://localhost:5000/get') proxy = response.text proxies = { ...

2019-12-25 11:16:40 355

原创 python爬虫数据库 --关于Mongodb数据库语法

Mongodb数据库一、MongoDB简介二、MongoDB基础增删改查操作1、增：insert方法2、删除：remove3、更新：update4、查: find5、查询表达式:三、游标操作四、索引创建1、btree索引2、hash索引3、常用命令：五、MongoDB数据的导入导出1、通用选项：2、mongoexport 导出json格式的文件3、Mongoimpo...

2019-12-25 11:13:07 633

原创 python爬虫 --数据库 MongoDB的配置

一、mongo的配置1、新建文件夹：C:\MongoDB\Server\3.4\data\dbC:\MongoDB\Server\3.4\data\logs2、配置环境变量：C:\MongoDB\Server\3.4\bin配置到path系统环境变量中。3、测试是否配置成功mongod --dbpath C:\MongoDB\Server\3.4\data\db4、配置服务：mo...

2019-12-24 18:53:02 279

原创 python爬虫 --多线程【晋级版】--阻塞--队列--公共缓冲区

阻塞import timefrom selenium import webdriverfrom selenium.webdriver.support.wait import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.common...

2019-12-24 15:01:58 353

原创 python爬虫---多线程爬取腾讯招聘数据【晋级版】

多线程快速爬取import timefrom selenium import webdriverfrom selenium.webdriver.support.wait import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.c...

2019-12-24 11:30:08 286

原创 python爬虫---多线程爬取腾讯招聘信息【简单版】

多线程快速爬取腾讯招聘数据import timefrom selenium import webdriverfrom selenium.webdriver.support.wait import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdr...

2019-12-24 11:09:48 568

原创 python爬虫----单线程爬取腾讯招聘内容【简单版】

慢速单线程爬取腾讯招聘内容import timefrom selenium import webdriverfrom selenium.webdriver.support.wait import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdri...

2019-12-24 11:07:11 299

原创 python爬虫（6）爬虫晋级知识--多进程和多线程

一、selenium的三种等待1、强制等待：不管页面是否被加载出来，强制让进程等待。time.sleep(2)2、隐式等待：driver.implicitly_wait(20)设置20秒的最大等待时长，他等待的结束条件是：等待到浏览器全部加载完成为止，全部加载可以理解为，浏览器不再转圈圈。弊端：页面的加载其实不单单是页面html，重要还有一些页面静态资源，而静态资源的加载是最耗时的，这些...

2019-12-23 18:51:13 403

原创 python爬虫--IP代理池

关于ip代理池成图进来的小伙伴基本已经知道ip代理池的作用废话不多说上代码文件目录。照着这个目录做文件就行api.pyfrom flask import Flask,gfrom proxypool.db import Redis_Client#当import * *其实就是指__all__里面的内容才会被导入。__all__ = ['app']app = Flask(__n...

2019-12-23 11:07:13 393

原创 python爬虫--爬取豆瓣读书----内容数据

import time,osfrom lxml import etreefrom excel_wirte_utils.wirte_to_excel import write_to_excel,write_to_excel_appendimport xlrdfrom xlutils.copy import copyimport requestsimport xlwtfrom selen...

2019-12-22 15:49:19 854

原创 python爬虫（5）爬虫进阶知识-反爬

1、path环境变量的作用：为了让cmd找到各种命令exe工具，配path就找exe所在目录配置就可以了。C:\Anaconda3\Scripts—找pip.exeC:\Anaconda3----python.exe2.修改完path，要重启cmdwhere python pathpip install redispip install aiohttppip install a...

2019-12-22 14:50:32 589

原创 python爬虫工具---selenium一个web自动化测试工具

1、什么是selenium？selenium一个web自动化测试工具。【但是它本身是不带浏览器】。这个工具其实就是作为一些外部工具驱动来使用的，可以控制一些外部应用来完成自动化测试。2、phantomjs：他其实就是一个内置无界面浏览器引擎。–无界面可以提高程序运行速度。因为phantomjs是一个浏览器引擎，所以他最大的功能就是执行页面的js代码。 3.安装selenium和phanto...

2019-12-21 15:28:41 577

原创 python爬虫 --爬取药网的药品信息-写入excel表中

import requestsfrom lxml import etreedef get_text(text): if text: return text[0] return ''def parse_page(html_str): tree = etree.HTML(html_str) li_list = tree.xpath('//ul[@...

2019-12-21 10:44:28 2909

原创 python爬虫 ---爬取网易云歌手信息

import requestsfrom lxml import etreedef get_text(list_): if list_: return list_[0] return ''def get_xpath(url): headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 6.1; ...

2019-12-21 10:42:03 1005

原创 python爬虫（4）爬虫进阶知识

第四讲 xpath一、什么xml？1、定义：可扩展标记性语言2、特点：xml的是具有自描述结构的半结构化数据。3、作用：xml主要设计宗旨是用来传输数据的。他还可以作为配置文件。二、xml和html的区别？1、语法要求不同：xml的语法要求更严格。（1）html不区分大小写的，xml区分。（2）html有时可以省却尾标签。xml不能省略任何标签，严格按照嵌套首位结构。（3）只有x...

2019-12-20 15:55:02 275

原创 python基础 --使用正则来处理各种匹配问题

import re##匹配列表内的非负整数list = [99,100,-100,-1,90]pattern = re.compile(r'[1-9]\d*|0')for i in list: m = pattern.search(str(i)) print(m)##匹配列表内的整数list = [99,100,-100,-1,90]pattern ...

2019-12-20 08:51:50 366

原创 python爬虫--爬取股吧前十页【阅读】【评论】【标题】【作者】【更新时间】

这是一个爬取股吧前十页数据的爬虫import re, jsonimport requestsdef write_to_json(infos): with open('movies.json', 'w', encoding='utf-8') as fp: json.dump(infos, fp)# 解析页面内容def parse_page(html_str)...

2019-12-19 22:09:27 2575

原创 python基础项目--爬取猫眼TOP榜前一百条数据

主要步骤有：访问网站，获取页面源码解析页面，得到想要的数据循环爬取多个页面把数据写入本地文件分析需要爬取的页面结构访问猫眼电影。观察页面，会看到首页上有排名前十的电影信息。找到页面中的分页，点击不同的页码。对比不同页面url的差别，会发现不同的分页是以offset参数作为区分的。因为每个页面都显示10条电影信息，所以offset是以10作为偏移量的。标题抓取首页import r...

2019-12-19 19:39:03 517

原创 python爬虫基础（3）爬虫进阶知识

一、cookie和session1、什么是cookie？cookie是指网站为了鉴别用户身份，进行绘画跟踪而存储在客户端本地的数据。2、什么是session？本来的含义是指有始有终的一系列动作，而在web中，session对象用来在服务器存储特定用户会话所需要的属性及信息。3、cookie和session产生的原因cookie和session他们不属于http协议范围，由于http协...

2019-12-19 19:02:04 291

原创 python爬虫基础--爬取人人网的登录方式

******换成自己的账号密码大体结构不会变，但是后续代码需要根据自己账号变动import requestsbase_url = 'http://www.renren.com/PLogin.do'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML...

2019-12-19 10:30:27 435

原创 python爬虫（2）爬虫基础知识 -request模块

第二讲requests模块文档：从 pythoneer 到 pythonista 的100个模块【想了解可以点击下面链接去看】链接：http://note.youdao.com/noteshare?id=2b95bb3651c21af80ca1936f8ecb1e0f&sub=635CA99241664308947C4F3BC1B5DDBF1、使用步骤#1.导包import r...

2019-12-18 20:43:21 430

原创 python基础项目 --爬取金山词霸翻译功能

基础项目爬取金山词霸的翻译功能，import requestsimport jsonbase_url = 'http://fy.iciba.com/ajax.php?a=fy'headers = { 'Content-Length': '23', 'Content-Type': 'application/x-www-form-urlencoded; charset=UT...

2019-12-18 20:23:03 1241

原创 python爬虫基础 --爬取股吧前十页数据

新建文件夹 ./guba/ 爬取的十页数据会自动存到guba文件夹下import requestsimport osbase_url = 'http://guba.eastmoney.com/'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTM...

2019-12-18 19:44:26 2425

原创 python爬虫基础 --爬取有道翻译

言止于此，自我领悟import hashlibimport jsonimport randomimport timeimport requestsbase_url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'headers = { # 'Accept': 'app...

2019-12-18 16:43:17 421

原创 python爬虫基础项目 --爬取百度翻译

在pycharm里面创建一个文件 baidu_fanyi.pyimport requests,jsonbase_url = 'https://fanyi.baidu.com/sug'headers= { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Ge...

2019-12-18 15:12:16 483

原创 python爬虫基础项目 --爬取百度中python人工智能的数据

创建一个py文件名为 baidu_search.py一个html文件 baidu_python人工智能.htmlimport requestsbase_url ='https://www.baidu.com/s?'kw = 'python人工智能'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x...

2019-12-18 14:41:01 494

原创 python爬虫基础项目 -- 爬取百度贴吧前十页

在子目录下创建一个tieba的空文件夹import requestsimport os#基础urlbase_url = 'http://tieba.baidu.com/f?'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Geck...

2019-12-18 14:03:16 1870 1

Django的配置与使用.pdf

360浏览器所以界面的广告爬取项目.py

空空如也