自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 dataframe的操作

增加 import pandas as pd 加载users data = pd.read_excel(’./users.xlsx’) print(“data:\n”, data) print(‘data 的列索引:\n’, data.columns) 给data 添加一列 next_year_a...

2020-01-10 13:56:59

阅读数 13

评论数 0

原创 pandas的统计分析

import pandas as pd import numpy as np 加载数据 data = pd.read_excel("./meal_order_detail.xlsx") print(‘data:\n’, data) print(‘data 的列索引:\n’, d...

2020-01-10 13:55:41

阅读数 18

评论数 0

原创 数据分析---Numpy库的使用

Numpy库 random模块常用随机数生成函数 seed:确定随机数生成器的种子 permutation:返回一个序列的随机排列或返回一个随机排列的范围 shuffle:对一个序列进行随机排序 binomial:产生二项分布的随机数 normal:产生正态分布的随机数 beta:产生beta分布...

2020-01-07 19:38:21

阅读数 15

评论数 0

原创 数据分析 --数据的认识

数据集由数据对象组成 一个数据对象代表一个实体(entity) 数据对象又称为样本、实例、数据点、或对象 数据行对应数据对象; 列对应属性 数据对象用属性(attribute)描述 属性(attribute)是一个数据字段,表示数据对象的一个特征 类型 标称属性(nominal) 标称属性(nom...

2020-01-06 21:07:54

阅读数 18

评论数 0

原创 Numpy数值计算-----PyCharm(python)

Numpy简介 Numpy是用于数据科学计算的基础,不但能够完成科学计算任务,还能被 用作高效地多维数据容器。用于存储和处理大型矩阵。 Python提供了一个array模块,和list不同,它直接保存数值,但是由于 Python 的array模块不支持多维,也没有各种运算函数。 Numpy 弥补了...

2020-01-06 20:04:01

阅读数 18

评论数 0

原创 python爬虫,代理池proxypool文件夹内容设置

api.py from flask import Flask,g from proxypool.db import Reids_Client __all__=['app'] app = Flask(__name__) def get_conn(): if not h...

2019-12-30 18:58:02

阅读数 15

评论数 0

原创 python爬虫 --爬取链家项目【高级版】

爬取链家项目需要用到代理池 ,代理池具体怎么设置可以去翻我之前的文章 import hashlib import requests from lxml import etree import pymongo import time,re import threading from queue im...

2019-12-26 19:27:50

阅读数 16

评论数 0

原创 python爬虫 --爬取链家项目【中级版】

爬取链家项目需要用到代理池 ,代理池具体怎么设置可以去翻我之前的文章 import hashlib import requests from lxml import etree import pymongo import time,re class Lianjia(object): de...

2019-12-26 19:26:46

阅读数 10

评论数 0

原创 python爬虫 --爬取链家项目【初级版】

爬取链家项目需要用到代理池 ,代理池具体怎么设置可以去翻我之前的文章 import hashlib import requests from lxml import etree import pymongo import time,re def get_proxies(): try: ...

2019-12-26 19:25:25

阅读数 44

评论数 0

原创 python爬虫数据库---MongDB---索引---hash--存储数据---迭代器---交集并集--数据结构--组合索引

btree索引和hash索引 hash讲解 mongodb存储数据的过程 noql数据库的应用 redis数据结构 迭代器 交集并集和补集 数据结构 组合索引

2019-12-26 19:03:28

阅读数 16

评论数 0

原创 python知识图谱--xml---并发和并行--死锁---递归---数组--同步和异步请求---线程

xml的名称 并发和并行 产生死锁的条件 代理服务器 递归 生产者和消费者 数组 同步请求和异步请求 网易云思路 线程的五种状态

2019-12-26 18:58:53

阅读数 29

评论数 0

原创 python爬虫 ---Hash算法

Hash算法 1.定义 Hash :散列,通过关于键值(key)的函数,将数据映射到内存存储中一个位置来访问。这个过程叫做Hash,这个映射函数称做散列函数,存放记录的数组称做散列表(Hash Table),又叫哈希表。 简单地说,它是密码学中的一个重要的函数,一般以 表示。这个函数可以将任意一...

2019-12-25 17:09:47

阅读数 40

评论数 0

原创 python爬虫 --多线程爬取笔趣网小说【晋级版】

import requests from lxml import etree import os from queue import Queue import threading class Biquge(threading.Thread): def __init__(self,url=N...

2019-12-25 11:17:50

阅读数 76

评论数 0

原创 python爬虫 --单线程爬取笔趣网的小说【基础版】

import requests from lxml import etree import os def get_proxies(): try: response = requests.get('http://localhost:5000/get') ...

2019-12-25 11:16:40

阅读数 18

评论数 0

原创 python爬虫数据库 --关于Mongodb数据库语法

Mongodb数据库 一、MongoDB简介 二、MongoDB基础增删改查操作 1、增:insert方法 2、删除:remove 3、更新:update 4、查: find 5、查询表达式: 三、游标操作 四、索引创建 1、btree索引 2、hash索引 3、常用命令: 五、MongoDB数据...

2019-12-25 11:13:07

阅读数 28

评论数 0

原创 python爬虫 --数据库 MongoDB的配置

一、mongo的配置 1、新建文件夹: C:\MongoDB\Server\3.4\data\db C:\MongoDB\Server\3.4\data\logs 2、配置环境变量: C:\MongoDB\Server\3.4\bin配置到path系统环境变量中。 3、测试是否配置成功 mongo...

2019-12-24 18:53:02

阅读数 11

评论数 0

原创 python爬虫 --多线程【晋级版】--阻塞--队列--公共缓冲区

阻塞 import time from selenium import webdriver from selenium.webdriver.support.wait import WebDriverWait from selenium.webdriver.support import expec...

2019-12-24 15:01:58

阅读数 12

评论数 0

原创 python爬虫---多线程爬取腾讯招聘数据【晋级版】

多线程快速爬取 import time from selenium import webdriver from selenium.webdriver.support.wait import WebDriverWait from selenium.webdriver.support import ...

2019-12-24 11:30:08

阅读数 26

评论数 0

原创 python爬虫---多线程爬取腾讯招聘信息【简单版】

多线程快速爬取腾讯招聘数据 import time from selenium import webdriver from selenium.webdriver.support.wait import WebDriverWait from selenium.webdriver.support i...

2019-12-24 11:09:48

阅读数 31

评论数 0

原创 python爬虫----单线程爬取腾讯招聘内容【简单版】

慢速单线程爬取腾讯招聘内容 import time from selenium import webdriver from selenium.webdriver.support.wait import WebDriverWait from selenium.webdriver.support im...

2019-12-24 11:07:11

阅读数 30

评论数 0

原创 python爬虫(6)爬虫晋级知识--多进程和多线程

一、selenium的三种等待 1、强制等待:不管页面是否被加载出来,强制让进程等待。 time.sleep(2) 2、隐式等待:driver.implicitly_wait(20) 设置20秒的最大等待时长,他等待的结束条件是:等待到浏览器全部加载完成为止,全部加载可以理解为,浏览器不再转圈圈。...

2019-12-23 18:51:13

阅读数 10

评论数 0

原创 python爬虫--IP代理池

关于ip代理池 成图 进来的小伙伴基本已经知道ip代理池的作用废话不多说上代码 文件目录。照着这个目录做文件就行 api.py from flask import Flask,g from proxypool.db import Redis_Client #当import * *其实就是指_...

2019-12-23 11:07:13

阅读数 17

评论数 0

原创 python爬虫--爬取豆瓣读书----内容数据

import time,os from lxml import etree from excel_wirte_utils.wirte_to_excel import write_to_excel,write_to_excel_append import xlrd from xlutils.copy...

2019-12-22 15:49:19

阅读数 69

评论数 0

原创 python爬虫(5)爬虫进阶知识-反爬

1、path环境变量的作用: 为了让cmd找到各种命令exe工具,配path就找exe所在目录配置就可以了。 C:\Anaconda3\Scripts—找pip.exe C:\Anaconda3----python.exe 2.修改完path,要重启cmd where python path ...

2019-12-22 14:50:32

阅读数 19

评论数 0

原创 python爬虫工具---selenium一个web自动化测试工具

1、什么是selenium? selenium一个web自动化测试工具。【但是它本身是不带浏览器】。这个工具其实就是作为一些外部工具驱动来使用的,可以控制一些外部应用来完成自动化测试。 2、phantomjs:他其实就是一个内置无界面浏览器引擎。–无界面可以提高程序运行速度。 因为phantomj...

2019-12-21 15:28:41

阅读数 36

评论数 0

原创 python爬虫 --爬取药网的药品信息-写入excel表中

import requests from lxml import etree def get_text(text): if text: return text[0] return '' def parse_page(html_str): ...

2019-12-21 10:44:28

阅读数 229

评论数 0

原创 python爬虫 ---爬取网易云歌手信息

import requests from lxml import etree def get_text(list_): if list_: return list_[0] return '' def get_xpath(url): hea...

2019-12-21 10:42:03

阅读数 231

评论数 0

原创 python爬虫(4)爬虫进阶知识

第四讲 xpath 一、什么xml? 1、定义:可扩展标记性语言 2、特点:xml的是具有自描述结构的半结构化数据。 3、作用:xml主要设计宗旨是用来传输数据的。他还可以作为配置文件。 二、xml和html的区别? 1、语法要求不同:xml的语法要求更严格。 (1)html不区分大小写的,xml...

2019-12-20 15:55:02

阅读数 53

评论数 0

原创 python基础 --使用正则来处理各种匹配问题

import re ##匹配列表内的非负整数 list = [99,100,-100,-1,90] pattern = re.compile(r'[1-9]\d*|0') for i in list: m = pattern.search(str(i)) ...

2019-12-20 08:51:50

阅读数 56

评论数 0

原创 python爬虫基础项目--爬取股吧前十页【阅读】【评论】【标题】【作者】【更新时间】

这是一个爬取股吧前十页数据的爬虫 import re, json import requests def write_to_json(infos): with open('movies.json', 'w', encoding='utf...

2019-12-19 22:09:27

阅读数 568

评论数 0

原创 python基础项目--爬取猫眼TOP榜前一百条数据

主要步骤有: 访问网站,获取页面源码 解析页面,得到想要的数据 循环爬取多个页面 把数据写入本地文件 分析需要爬取的页面结构 访问猫眼电影。观察页面,会看到首页上有排名前十的电影信息。 找到页面中的分页,点击不同的页码。对比不同页面url的差别,会发现不同的分页是以offset参数作为区分的。 因...

2019-12-19 19:39:03

阅读数 100

评论数 0

原创 python爬虫基础(3)爬虫进阶知识

一、cookie和session 1、什么是cookie? cookie是指网站为了鉴别用户身份,进行绘画跟踪而存储在客户端本地的数据。 2、什么是session? 本来的含义是指有始有终的一系列动作,而在web中, session对象用来在服务器存储特定用户会话所需要的属性及信息。 3、cook...

2019-12-19 19:02:04

阅读数 64

评论数 0

原创 python爬虫基础--爬取人人网的登录方式

******换成自己的账号密码 大体结构不会变,但是后续代码需要根据自己账号变动 import requests base_url = 'http://www.renren.com/PLogin.do' headers = { 'User-Agent...

2019-12-19 10:30:27

阅读数 98

评论数 0

原创 python爬虫(2)爬虫基础知识 -request模块

第二讲requests模块 文档:从 pythoneer 到 pythonista 的100个模块【想了解可以点击下面链接去看】 链接:http://note.youdao.com/noteshare? id=2b95bb3651c21af80ca1936f8ecb1e0f&sub=635...

2019-12-18 20:43:21

阅读数 95

评论数 0

原创 python基础项目 --爬取金山词霸翻译功能

基础项目 爬取金山词霸的翻译功能, import requests import json base_url = 'http://fy.iciba.com/ajax.php?a=fy' headers = { 'Content-Length': &...

2019-12-18 20:23:03

阅读数 86

评论数 0

原创 python爬虫基础 --爬取股吧前十页数据

新建文件夹 ./guba/ 爬取的十页数据会自动存到guba文件夹下 import requests import os base_url = 'http://guba.eastmoney.com/' headers = { 'User-Agent�...

2019-12-18 19:44:26

阅读数 71

评论数 0

原创 python爬虫基础 --爬取有道翻译

言止于此,自我领悟 import hashlib import json import random import time import requests base_url = 'http://fanyi.youdao.com/translate_o?smartresult=dict...

2019-12-18 16:43:17

阅读数 85

评论数 0

原创 python爬虫基础项目 --爬取百度翻译

在pycharm里面创建一个文件 baidu_fanyi.py import requests,json base_url = 'https://fanyi.baidu.com/sug' headers= { 'User-Agent': '...

2019-12-18 15:12:16

阅读数 50

评论数 0

原创 python爬虫基础项目 --爬取百度中python人工智能的数据

创建一个py文件 名为 baidu_search.py 一个html文件 baidu_python人工智能.html import requests base_url ='https://www.baidu.com/s?' kw = 'python人工智能...

2019-12-18 14:41:01

阅读数 65

评论数 0

原创 python爬虫基础项目 -- 爬取百度贴吧前十页

在子目录下创建一个tieba的空文件夹 import requests import os #基础url base_url = 'http://tieba.baidu.com/f?' headers = { 'User-Agent': 'M...

2019-12-18 14:03:16

阅读数 22

评论数 0

提示
确定要删除当前文章?
取消 删除