自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(83)
  • 收藏
  • 关注

原创 字符串/元组/列表/字典互转

#coding:utf-8#1、字典 dic={'age': 7, 'name': 'Zara', 'class': 'First'} #字典转为字符串 str(dict) ------>"{'age': 7, 'name': 'Zara', 'class': 'First'}"#字典转为元组tuple(dict)---------->('age', 'na...

2019-04-16 19:30:51 235

原创 苹果股票数据分析(object数据的转换,行索引的转换)

导入数据分析三剑客import numpy as npimport pandas as pdimport matplotlib.pyplot as pltapple=pd.read_csv("C://Users/Administrator/Desktop/apple.csv")#a=apple.dtypes'''Date objectOpen ...

2019-09-09 21:48:25 698

原创 pandas2·——>DataFrame2·(排序、统计函数、相关性)

排序NaN统一放到排序末尾.sort_index()方法在指定轴上根据索引进行排序,默认升序.sort_index(axis=0, ascending=True).sort_values()方法在指定轴上根据数值进行排序,默认升序Series.sort_values(axis=0, ascending=True)DataFrame.sort_values(by, axis=0, a...

2019-09-08 16:15:18 734

原创 pandas2·——>DataFrame(创建、索引、运算)

DataFrame类型由共用相同索引的一组列组成DataFrame是一个表格型的数据类型,每列值类型可以不同DataFrame既有行索引、也有列索引DataFrame常用于表达二维数据,但可以表达多维数据DataFrame是二维带“标签”数组创建:• 二维ndarray对象• 由一维ndarray、列表、字典、元组或Series构成的字典• Series类型• 其他的D...

2019-09-08 15:08:07 759

原创 pandas1·——>Series(创建、索引、部分展示、去除空数据)

Series是一维带“标签”数组index_0 data_aSeries基本操作类似ndarray和字典,根据索引对齐Series类型的创建由一组数据及与之相关的数据索引组成可使用(1·Python列表 2·标量值 3·Python字典 4·ndarray 5·其他函数)五类方法创建• Python列表,index与列表元素个数一致• 标量值,index表达Series类型的尺寸...

2019-09-08 10:42:59 1776

原创 实例6·图像转换,颠倒(图片的构成,jpg、png的不同)

图像是一个三维数组,维度分别是高度、宽度和像素RGB值import numpy as npfrom PIL import Imagea=np.array(Image.open("C:\\Users/Administrator/Desktop/mn.jpg").convert("L"))b=255-aim=Image.fromarray(b.astype("uint8"))im.sa...

2019-08-22 09:31:45 1024

原创 Nunmpy2·(数据的存取、运算、random的随机函数、统计函数、梯度函数)

·存取csv文件(一维,二维)存np.savetxt(frame, array, fmt='%.18e', delimiter=None)• frame : 文件、字符串或产生器,可以是.gz或.bz2的压缩文件• array : 存入文件的数组• fmt : 写入文件的格式,例如:%d %.2f %.18e• delimiter : 分割字符串,默认是任何空格...

2019-08-22 09:04:10 252

原创 Numpy1·(数组的生成、判断、转换、索引(取出符合条件的数值)、切片)

#导入import numpy as np数组生成1·直接生成 使用字典,列表,元组及其嵌套'''p91 数组生成函数'''a=np.array([1,2,3,4],dtype=np.float64) #可以指定类型,也可以不指定,不指定就生成给定的数据b=np.array([[1,2,3,4],[5,6,7,8]])数组判断大小np.size(b)--------...

2019-08-20 20:48:12 1672

原创 基础1·约会网站推荐(k最近邻算法的实战)

import numpy as npimport operator"""函数说明:kNN算法,分类器Parameters: inX - 用于分类的数据(测试集) dataSet - 用于训练的数据(训练集) labes - 分类标签 k - kNN算法参数,选择距离最小的k个点Returns: sortedClassCount[0][0] -...

2019-06-04 12:05:54 1682

原创 实例5·GitHub-Api数据绘制(链接添加,api调用,颜色填充)

import requestsimport pygalfrom pygal.style import LightColorizedStyle as LCS, LightenStyle as LS# 获取信息url = 'https://api.github.com/search/repositories?q=language:python&sort=stars'r = req...

2019-05-27 20:13:36 175

原创 实例4·股票数据分析(pygal,json格式数据处理)

import jsonimport requestsimport pygalimport mathfrom itertools import groupby# 将数据加载到一个列表中filename = 'C://Users/Administrator/Desktop/btc_close_2017.json'with open(filename) as f: texts ...

2019-05-27 12:32:17 967 2

原创 实例3·加州死亡谷温度曲线(csv文件处理,图例字体倾斜)

import csvfrom datetime import datetimefrom matplotlib import pyplot as pltwith open('C://Users/Administrator/Desktop/death_valley_2014.csv') as f: text = csv.reader(f) #表头 header_ro...

2019-05-26 20:46:36 775

原创 实例2·筛子直方图(pygal下的直方图绘制,svg格式的打开)

# 创建一个筛子类import pygalfrom random import randintclass Shaizi(): def __init__(self, sides_num=6): self.sides_num = sides_num def number(self): return randint(1, 6)# 掷骰子...

2019-05-26 19:50:03 253

原创 实例1·随机漫步图(matplotlib下的设置图像尺寸,隐藏坐标轴)

from random import choiceimport matplotlib.pyplot as pltx_start = [0]y_start = [0]#生成坐标矩阵while len(x_start)<10000: x_direction=choice([-1,1]) x_distance=choice([0,1,2,3,4]) x_s...

2019-05-26 19:20:22 1279

原创 matplotlib·2(绘制饼图,直方图,极坐标图,复杂子区域分割)

import numpy as npimport matplotlib.pyplot as plt# 绘制饼图labels = 'x', 'y', 'z', 'm' # 坐标轴名称size = [100, 230, 340, 343]explode = (0, 0.1, 0, 0) # 使得y的数据突出plt.subplot2grid((3, 3), (0, 0), colsp...

2019-05-26 16:02:24 768

原创 matplotlib·1(散点图,曲线图,注释添加,图像保存,区域分割,中文使用)

import matplotlib.pyplot as pltx=list(range(0,100))y=[pow(i,2) for i in x]z=[2.5*i for i in x]m=[4*i for i in x]n=[10*i for i in x]#坐标轴长度设置(放在前面用于全局)plt.axis([0,100,0,800])#分割子区域plt.subpl...

2019-05-26 14:21:54 2317

原创 基础17·硕士往年试题下载软件开发(tkinter下的url打开,光标显示)

from tkinter import *import webbrowser as wbdef main(): name = entry1.get() # 文本框设置,在此地方放置有利于刷新 text = Text(master, width = 33, height = 27) text.grid(row = 1, column = 1) tex...

2019-05-24 20:55:19 189

原创 算法5·贪婪算法(旅行商问题)

解释:该算法用于需要计算所有的解,并从中找到最短的那一个与狄克斯特拉算法不同的是:这里只输入了狄克斯特拉算法里面的cost# 输入旅行表信息distance = {}distance['ab'] = distance['ba'] = 10distance['ac'] = distance['ca'] = 12distance['ad'] = distance['da'] = 16...

2019-05-11 18:39:33 2095

原创 算法4·狄克斯特拉算法(路程最短,只可用于非负权重时使用)

#建立图pic = {}pic["a"], pic["a"]["b"], pic["a"]["c"] = {}, 5, 2pic['b'], pic['b']['d'], pic['b']['e'] = {}, 2, 4pic['c'], pic['c']['b'], pic['c']['d'] = {}, 8, 7pic['d'], pic["d"]['f'] = {}, 1pic...

2019-05-10 12:57:51 256

原创 算法3·广度优先搜索(关系最短)

from collections import dequefriends = {}friends["my_friend"] = ["李", "吴", "徐"]friends["李"] = ["潘O", "孟"]def search(name): people = deque() people += friends[name] searched = [] ...

2019-05-10 10:31:14 145

转载 citycode

110000 北京市 110100  市辖区  110101   东城区  110102   西城区  110105   朝阳区  110106   丰台区  110107   石景山区  110108   海淀区  110109   门头沟区  110111   房山区  110112 ...

2019-05-07 21:19:18 3385

原创 算法2·欧几里得(最大公约数),快速排序

最大公约数:def ojld(x, y): if x % y == 0: print(min(x, y)) else: a = x % y if a == 0: print(min(x, y)) else: b = y % a if b == ...

2019-05-07 19:40:50 148

原创 算法1·递归(汉诺塔)

count = 0#(初始柱子,中间柱子,结果柱子)在递归过程中,ABC三柱子的实际作用会发生变化,但函数位置代表的含义不会改变# 递归可以只关注N与N-1的关系def hanoi(n, start, mid, end): global count if n == 1: print("{} | 方法:{}->{}".format("递归层数:1"...

2019-05-06 21:34:36 373

原创 进阶4·淘宝商品爬取与分析(selenium,网页元素无法定位的四个解决办法)

淘宝估计是爬虫界一直想要去尝试的网页,小彬自学爬虫已有一段时间,在掌握selenium后就一直想要本着学习交流的态度和淘宝程序员叔叔切磋一下,嘻嘻。唉,没想到这一切磋就耗费了我一天时间,不过还好,最后也小有成就,并且这次收获也不少,尤其对于网页的反蜘蛛机制。我先梳理下遇到的困难:1·网页登入,淘宝账号登入需要滑动验证码;支付宝账号登入,却找不到密码输入框标签。唉,愁死个人了2·成功登入后,...

2019-05-01 23:28:15 2658

原创 Python

安装报错0x80072f7d:解决方案:在此位置不要多选

2019-04-27 22:00:17 112

原创 基础5·selenium库(浏览器模拟库)的使用方法

#打开浏览器from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionschrome_options = Options()browser_add = r'D:\软件安装地址\360Chrome\Chrome\Application\360chrome.exe'chrome_op...

2019-04-27 18:06:48 351

原创 基础4·requests库(网址请求库)的使用方法

# 导入import requests# 请求网址r = requests.get(url=url, params=params, headers=headers)url: 要访问的网站params: 可以用来拼接网址, 以字典形式添加headers: 请求头数据,以字典形式添加返回请求状态码# 处理json数据r.json()# 保存文本r.text二进制...

2019-04-27 16:18:41 404

原创 基础13·豆瓣热门电影top250抓取(csv文件的使用)

import requests, json, timenum = [0, 51, 101, 151, 201, ]for i in num: url = "https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&page_limit=50&page_start=...

2019-04-26 20:12:58 1364

原创 基础12·登入CSDN(selenium的使用,360浏览器的打开)

from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsimport timedef login(email, password): # 1. 驱动 __browser_url = r'D:\软件安装地址\360Chrome\Chrome\Application\...

2019-04-26 19:46:58 867

原创 进阶3·超级课程表核心实现(selenium的使用,验证码识别)

from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsimport pprint, timefrom selenium.common.exceptions import NoSuchElementExceptionfrom lxml import etreedef req...

2019-04-26 18:55:08 786 1

原创 基础11·今日头条NBA图片抓取(Ajax渲染页面的抓取,URL中params的添加)

import requests, pprint, json, time, osdef get_text(url, offset): headers = { 'accept': 'application/json, text/javascript', 'accept-encoding': 'gzip, deflate, br', 'ac...

2019-04-25 23:03:16 486

原创 基础10·360图片一页面的抓取(os库下新建多层文件夹,json转换dic)

import requests, pprint, time, jsonfrom lxml import etreedef get_text(url): headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like G...

2019-04-24 22:37:51 149

原创 基础9·最好大学网大学排名抓取(BeautifulSoup库,re库的使用,对应排名的输出)

import requests, time, refrom bs4 import BeautifulSoupfrom lxml import etreedef get_text(url): try: r = requests.get(url) r.encoding = r.apparent_encoding ret = r.tex...

2019-04-24 16:13:47 433

原创 基础3·BeautifulSoup库(节点解析库)的使用方法

导入:from bs4 import BeautifulSoup解析网页代码:soup=BeautifulSoup(ret,‘html.parser’) html.parser:解析器类型使用函数

2019-04-24 14:26:34 638

原创 基础2·lxml库(节点解析库)的使用方法

调用:from lxml import entree解析网页代码:html = entree.HTML(ret)网页源码修补:entree.tostring(html)文本获取:html.xpath('//<节点名称>/text()')节点获取:所有节点获取:html.xpath('//*')指定节点获取:html.xpath('//&lt...

2019-04-24 13:18:32 1784

原创 基础8·起点小说一页爬取(xpath的使用,re库下的文本修改)

分析网页源代码发现,所需的文本储存在div标签下的p标签,并且p标签基本上只储存了想要获取的内容所以调用lxml会更省力import requests,time,refrom lxml import etreedef get_text(url): try: r=requests.get(url,timeout=30) r.raise_for_s...

2019-04-24 12:38:36 530

原创 基础1·网页源代码的结构认识(BeautifulSoup库的解析)

2019-04-24 09:50:27 1668

原创 360极速浏览器配置Chromedrive

找到浏览器Chrome的版本:找到对应版本并下载:chromedriver版本 支持的Chrome版本v2.46 v71-73v2.45 v70-72v2.44 v69-71v2.43 v69-71v2.42 v68-70v2.41 v67-69v2.40 v66-68v2.39 v66-68v2.38 v65-67v2.37 v64-66v2.36 v63-65...

2019-04-23 23:30:24 5775 3

原创 基础7·猫眼电影排名爬取(多个网站的循环爬取)

import requests,re,timepages=[0,10,20,30,40,50,60,70,80,90]for page in pages: headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chro...

2019-04-22 17:35:47 5613

原创 基础6·登入知乎(cookie的加入及其在开发者工具里面的位置)

import requests,pprinturl="https://www.zhihu.com/question/268776431/answer/636026533"headers={ 'cookie':'_zap=817004a4-48cd-4d3e-bca1-27cbba533d52; d_c0="AHDkaADIEA-PTrT1Az_3EAea0_HOubh8LJ8=|1...

2019-04-22 17:06:41 746

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除