自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(92)
  • 资源 (1)
  • 收藏
  • 关注

原创 2020-11-16

免费ipimport requests # 导入网络请求模块from lxml import etree # 导入HTML解析模块import pandas as pd # 导入pandas模块ip_list = [] # 创建保存ip地址的列表def get_ip(url, headers): # 发送网络请求 response = requests.get(url, headers=headers) response.encoding = 'ut.

2020-11-16 18:07:03 166

原创 数据清洗

import numpy as npdef get_repeated_label(array_1dim): label_1dim=[] for k in range(len(array_1dim)-1): for i in range(k+1,len(array_1dim),1): if array_1dim[k]==array_1di...

2018-06-06 17:13:28 378

原创 数据分析简介

零,数据分析简介什么叫数据分析,它要达到何种目的。数据分析指的是通过统计学方法对采集来的数据进行整理和分析,并从中提取有用信息,从而得出结论的过程。某些学者认为,数据分析分为三类,入门级的描述性数据分析,其方法主要有对比、平均、交叉分析法。高级的探索和验证数据分析,分析方法主要有相关分析,回归分析,因子分析。这样的提法自有它的道理。在我看来,实际上就分两类:描述性统计分析和计算性数据分析...

2018-06-05 20:49:09 2275

原创 (89)--Python数据分析:Pandas画图

# Pandas画图import itertoolsfrom math import expimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltdef lasso_regression(X_array, y, lambd, threshold=0.1): #通过坐标下降(coordinate de...

2018-05-23 09:35:24 507

原创 (88)--Python数据分析:线性回归分析

# 线性回归分析import matplotlib.pyplot as pltimport pandas as pdimport numpy as npfrom scipy import linalgtita_list=[]def upload_csv(name): array_data=np.loadtxt(fname=name,dtype=np.float64,delimit...

2018-05-17 20:46:10 1221

原创 (87)--Python数据分析:指数密度函数与指数分布图

# 指数密度函数与指数分布图 lambd = 0.5x = np.arange(0,15,0.1)y = lambd*np.exp(-lambd*x)plt.plot(x,y)plt.title('Exponential:$\lambda$=%.2f' % lambd)plt.xlabel('x')plt.ylabel('Probability density')plt.show()...

2018-05-16 19:07:24 5626

原创 (86)--Python数据分析:散布图

# 散布图必须通过两个数据序列才能绘制而成,也可以通过一个数据框绘制成散布矩阵。 import pandas as pdimport numpy as npimport matplotlib.pyplot as pltX1=np.arange(1,1002,1)X2=np.random.normal(3,1,1001)X3=np.random.randn(1001)X4=np...

2018-05-11 20:14:41 1293

转载 (85)--Python数据分析:简单线性回归

# 散点图描绘(一)准备工作1.编程环境:Python3.5.2(使用其自带的IDLE,并已经配置好环境变量),win10。2.使用到的包:numpy,matplotlib,Pandas,sklearn,OrderedDict,matplotlib (注:可用pip install xxx直接安装,有问题就直接搜索引擎解决)。3.数据源:a. ex0.txt :https://pan.baidu...

2018-05-10 14:00:01 1069

原创 (84)--制作数据面板

# 制作数据面板df1 = pd.read_csv(r'Desktop\1.csv')df1Out[90]: a b c d0 3 5 8 41 4 6 9 52 5 7 10 63 6 8 11 74 7 9 12 85 8 10 13 96 9 ...

2018-05-07 20:18:02 441

原创 (83)--用代码实现超越函数

# 实现一个超越函数:y = x*sin(x)import numpy as npimport pandas as pdimport matplotlib.pyplot as pltser=pd.Series(np.sin(np.linspace(0,7,1000)),index=list(np.linspace(0,7,1000)))asd,as_2=plt.subplots(fig...

2018-05-07 19:09:30 1049 1

原创 (82)--用代码实现简谐运动

# 模拟实现简谐运动# temp.pyimport matplotlib.pyplot as pltimport numpy as npdef f(t): return np.cos(2 * np.pi * t)a = np.arange(0.0,5.0,0.02)plt.plot(a,f(a))plt.xlabel('横坐标(时间)',fontproperties='Ka...

2018-04-27 16:32:57 2640

原创 (81)--图片修改小技巧之手绘

# 深入理解图片成像原理以及数据背后含义之后制作一个小程序# temp.pyfrom PIL import Imageimport numpy as np# 图像手绘效果a = np.asanyarray(Image.open(r'D:\学习\作业\趣图\01.jpg').convert('L')).astype('float')depth = 10grad = np.gradient...

2018-04-26 16:16:48 259

原创 (80)--图片修改小技巧

# 深入理解图片成像原理以及数据背后含义之后制作一个小程序# temp.pyfrom PIL import Imageimport numpy as npa = np.array(Image.open(r'D:\学习\作业\趣图\01.jpg'))print(a.shape,a.dtype)b = [255,255,255] - aim = Image.fromarray(b.as...

2018-04-26 11:51:23 184

转载 (79)--爬取网页信息

# 增加搜索功能import reimport urllib.requestimport jsondef InsertDict(D, key, value): D.setdefault(key) D[key] = valuedef GetHtml(url): response = urllib.request.urlopen(url) text = re...

2018-04-24 11:07:52 245

原创 (78)--用框架爬取招聘信息

(78)--用scrapy框架简单爬取赶集网信息# main.pyfrom scrapy import cmdlinecmdline.execute('scrapy crawl spider_ganji'.split())# spider_ganji.py# -*- coding: utf-8 -*-import scrapyfrom ..items import WwwGanjiIte...

2018-04-19 15:33:25 1186

原创 (77)--用框架爬取博客园信息并保存到数据库

# 用框架爬取博客园信息并保存到数据库# cnlogs_itload.py# -*- coding: utf-8 -*-import scrapyimport refrom ..items import CnblogItem,CnblogItemLoaderfrom datetime import datetimefrom w3lib.html import remove_tagsf...

2018-04-12 19:31:38 407

原创 (76)--用框架爬取交友信息并保存到数据库

# 用框架爬取交友信息并保存到数据库# yuehui.py# -*- coding: utf-8 -*-import scrapyimport jsonimport mathfrom ..items import YuehuiItem,TrueHeartItemimport reclass YuehuiSpider(scrapy.Spider): name = 'yuehui...

2018-04-11 19:07:55 324

原创 (75)--用框架爬取腾讯招聘信息并保存到数据库

# 用框架爬取腾讯招聘信息并保存到数据库# main.pyfrom scrapy import cmdlinecmdline.execute('scrapy crawl tencent_new'.split())# tencent_new.py# -*- coding: utf-8 -*-import scrapyfrom urllib import request,parsefrom ...

2018-04-10 16:59:42 537

原创 (74)--用框架爬取腾讯招聘首页

# 用框架爬取腾讯招聘首页# tencent.py# -*- coding: utf-8 -*-import scrapyfrom ..items import JobItemfrom datetime import datetimeclass TencentSpider(scrapy.Spider): name = 'tencent' allowed_domains =...

2018-04-10 14:55:30 330

原创 (73)--用框架爬取兄弟连老师信息

# 用框架爬取兄弟连老师姓名# xdl.py# -*- coding: utf-8 -*-import scrapyclass XdlSpider(scrapy.Spider): name = 'xdl' # allowed_domains = ['www.xdl.cn'] start_urls = ['http://www.itxdl.cn/activity/te...

2018-04-09 19:15:39 348

原创 (72)--爬取中执行JS代码

# 用JS代码自动运行程序from selenium import webdriverimport timechrome = webdriver.Chrome(executable_path=r'E:\Python\python爬虫\chromedriver.exe')base_url = 'https://image.baidu.com/search/index?ct=201326592&...

2018-04-09 11:57:42 372

原创 (71)--爬取拉勾网招聘信息

# 爬取拉勾网招聘信息from selenium import webdriverimport timefrom lxml import etreedc = { 'phantomjs.page.customHeaders.User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTM...

2018-04-09 10:16:02 763

原创 (70)--爬取哦漫画图片并下载到相应文件夹

# 爬取哦漫画图片并下载到相应文件夹from selenium import webdriverimport timeimport requestsfrom bs4 import BeautifulSoupimport refrom urllib import request,parseimport os# 1.获取漫画章节链接phantom = webdriver.Phant...

2018-04-08 20:14:52 659

原创 (69)-- selenium的简单应用

#  selenium的简单应用from selenium import webdriverimport timebrowser = webdriver.Chrome(executable_path=r'E:\Python\python爬虫\chromedriver.exe')base_url = 'http://www.baidu.com'browser.get(base_url)...

2018-04-08 16:56:06 215

原创 (68)-- 爬取糗百信息

# 爬取糗百信息import threadingfrom queue import Queueimport requestsfrom lxml import etreeimport time# 最大开启采集线程数(并发数)concurrent = 3# 解析并发数conparse = 3class Crawl(threading.Thread): def __init...

2018-04-08 16:05:49 389

原创 (67)-- 多线程爬取腾讯招聘并存入数据库

# 多线程爬取腾讯招聘职位信息并存入数据库 # mydb.pyimport pymysqlclass Mydb: def __init__(self): try: self.conn = pymysql.connect('127.0.0.1','root','123456','han',charset='utf8') se...

2018-04-04 16:40:38 322

原创 (66)-- 多进程爬取腾讯招聘信息

# 用多进程爬取腾讯招聘的文本信息from multiprocessing import Poolimport requestsfrom bs4 import BeautifulSoupimport timebase_url = 'http://hr.tencent.com/position.php?start=%d'headers = { 'User-Agent' : '...

2018-04-04 11:13:42 2597

原创 (65)-- 爬取58交友信息

# 二级爬取58交友的名字、年龄、身高、学历、图片信息,并把这些信息保存到数据库中# 首先要在当前目录下建立一个58文件夹,然后通过Navicat连接到数据库# mydb.pyimport pymysqlclass Mydb: def __init__(self): try: self.conn = pymysql.connect('127.0....

2018-04-03 16:27:03 300

原创 (65)-- 爬取兄弟连老师信息

# 爬取兄弟连老师信息,先建一个teacher文件夹from bs4 import BeautifulSoupimport requestsfrom urllib import requestimport jsonbase_url = 'http://www.itxdl.cn/activity/teacher/teacher_lieibiao/'response = requests....

2018-04-03 11:53:59 269

原创 (63)-- 爬取兄弟连网页信息

#  爬取兄弟连网页信息,包括详细信息和图片import requestsfrom lxml import etreeimport jsonfrom urllib import requestdef getUrl(): base_url = 'http://www.itxdl.cn/html/php/phparticles/' response = requests.ge...

2018-04-02 19:11:06 238

原创 (62)-- 打包压缩下载

# 打包压缩下载import urllibfrom urllib import requestimport osdef Schedule(a,b,c): ''' a:已下载数据块 b:已下载数据块大小 c:总文件大小 ''' per = 100.0 * a * b / c if per > 100 : ...

2018-03-30 16:26:22 211

原创 (61)-- 用代理IP爬取网页

# 用随机代理IP简单爬取网页内容# download.py文件import randomfrom urllib import requestimport jsondef getProxy(): with open('xici.json', 'r', encoding='utf-8') as f: proxies = f.read() proxie...

2018-03-30 11:16:26 6065

原创 (60)-- 用程序改写豆瓣会员签名

# 用程序改写自己豆瓣签名from urllib import request,parsefrom http import cookiejarimport recookie = cookiejar.CookieJar()cookie_handler = request.HTTPCookieProcessor(cookie)opener = request.build_opener(co...

2018-03-29 19:54:11 228

原创 (59)-- 微信聊天小程序

# 与好友聊天小程序import itchatitchat.auto_login(hotReload=True)friends = itchat.get_friends()yourinput = input("请输入好友昵称: ")yourmessage = input("请输入发送内容:")for friend in friends: if friend['NickName']...

2018-03-29 11:56:56 1057

原创 (58)-- 用正则层层爬取图片

# 用正则层层爬取图片from urllib import requestimport rebase_url = 'http://www.mmonly.cc/wmtp/fjtp/list_21_{}.html'def download(pic_url): print('downloading...%s' % pic_url) fname = pic_url.split('...

2018-03-28 20:11:51 273

原创 (57)-- 用正则简单爬取图片

# 用正则爬取单页图片from urllib import requestimport rebase_url = 'https://tieba.baidu.com/p/5504076850'response = request.urlopen(base_url)html = response.read().decode('utf-8')pat = re.compile('<img ...

2018-03-28 10:37:55 372

转载 (56)-- 应用程序接口(API)

应用程序接口编辑词条API之主要目的是提供应用程序与开发人员以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。提供API所定义的功能的软件称作此API的实现。API是一种接口,故而是一种抽象。应用程序接口(英语:ApplicationProgrammingInterface,简称:API),又称为应用编程接口,就是软件系统不同组成部分衔接的约定。由于近年来软件的规模日益庞大,常常需...

2018-03-27 20:40:47 749

原创 (55)-- 简单爬取人人网个人首页信息

# 简单爬取人人网个人首页信息from urllib import requestbase_url = 'http://www.renren.com/964943656'headers = { "Host" : "www.renren.com", "Connection" : "keep-alive", "Upgrade-Insecure-Requests" : "1.

2018-03-27 16:18:45 3204

原创 (54)-- 简单模拟百度翻译

# 简单模拟百度翻译from urllib import request,parseimport jsondef trans(keyword): base_url = 'http://fanyi.baidu.com/sug' data = { 'kw':keyword } data = parse.urlencode(data) head...

2018-03-27 13:57:44 539

原创 (53)-- 做个简单贴吧及页数搜索

# 做个简单贴吧及页数搜索from urllib import request,parsedef search(kw,i): base_url = 'http://www.baidu.com/s?' i = int(i) pa = 50 * (i - 1) qs = { 'kw' : kw, 'pn' : pa } ...

2018-03-26 20:11:28 182

2019城市级联五级

五级城市联动到街道,数据库可直接导入,方便快捷,与君分享。

2018-12-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除