Fredreck1919-CSDN博客

原创 2020-11-16

免费ipimport requests # 导入网络请求模块from lxml import etree # 导入HTML解析模块import pandas as pd # 导入pandas模块ip_list = [] # 创建保存ip地址的列表def get_ip(url, headers): # 发送网络请求 response = requests.get(url, headers=headers) response.encoding = 'ut.

2020-11-16 18:07:03 166

原创数据清洗

import numpy as npdef get_repeated_label(array_1dim): label_1dim=[] for k in range(len(array_1dim)-1): for i in range(k+1,len(array_1dim),1): if array_1dim[k]==array_1di...

2018-06-06 17:13:28 378

原创数据分析简介

零，数据分析简介什么叫数据分析，它要达到何种目的。数据分析指的是通过统计学方法对采集来的数据进行整理和分析，并从中提取有用信息，从而得出结论的过程。某些学者认为，数据分析分为三类，入门级的描述性数据分析，其方法主要有对比、平均、交叉分析法。高级的探索和验证数据分析，分析方法主要有相关分析，回归分析，因子分析。这样的提法自有它的道理。在我看来，实际上就分两类：描述性统计分析和计算性数据分析...

2018-06-05 20:49:09 2275

原创（89）--Python数据分析：Pandas画图

# Pandas画图import itertoolsfrom math import expimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltdef lasso_regression(X_array, y, lambd, threshold=0.1): #通过坐标下降(coordinate de...

2018-05-23 09:35:24 507

原创（88）--Python数据分析：线性回归分析

# 线性回归分析import matplotlib.pyplot as pltimport pandas as pdimport numpy as npfrom scipy import linalgtita_list=[]def upload_csv(name): array_data=np.loadtxt(fname=name,dtype=np.float64,delimit...

2018-05-17 20:46:10 1221

原创（87）--Python数据分析：指数密度函数与指数分布图

# 指数密度函数与指数分布图 lambd = 0.5x = np.arange(0,15,0.1)y = lambd*np.exp(-lambd*x)plt.plot(x,y)plt.title('Exponential:$\lambda$=%.2f' % lambd)plt.xlabel('x')plt.ylabel('Probability density')plt.show()...

2018-05-16 19:07:24 5626

原创（86）--Python数据分析：散布图

# 散布图必须通过两个数据序列才能绘制而成，也可以通过一个数据框绘制成散布矩阵。 import pandas as pdimport numpy as npimport matplotlib.pyplot as pltX1=np.arange(1,1002,1)X2=np.random.normal(3,1,1001)X3=np.random.randn(1001)X4=np...

2018-05-11 20:14:41 1293

转载（85）--Python数据分析：简单线性回归

# 散点图描绘（一）准备工作1.编程环境：Python3.5.2(使用其自带的IDLE，并已经配置好环境变量)，win10。2.使用到的包：numpy,matplotlib,Pandas,sklearn,OrderedDict,matplotlib （注：可用pip install xxx直接安装，有问题就直接搜索引擎解决）。3.数据源：a. ex0.txt ：https://pan.baidu...

2018-05-10 14:00:01 1069

原创（84）--制作数据面板

# 制作数据面板df1 = pd.read_csv(r'Desktop\1.csv')df1Out[90]: a b c d0 3 5 8 41 4 6 9 52 5 7 10 63 6 8 11 74 7 9 12 85 8 10 13 96 9 ...

2018-05-07 20:18:02 441

原创（83）--用代码实现超越函数

# 实现一个超越函数：y = x*sin(x)import numpy as npimport pandas as pdimport matplotlib.pyplot as pltser=pd.Series(np.sin(np.linspace(0,7,1000)),index=list(np.linspace(0,7,1000)))asd,as_2=plt.subplots(fig...

2018-05-07 19:09:30 1049 1

原创（82）--用代码实现简谐运动

# 模拟实现简谐运动# temp.pyimport matplotlib.pyplot as pltimport numpy as npdef f(t): return np.cos(2 * np.pi * t)a = np.arange(0.0,5.0,0.02)plt.plot(a,f(a))plt.xlabel('横坐标(时间)',fontproperties='Ka...

2018-04-27 16:32:57 2640

原创（81）--图片修改小技巧之手绘

# 深入理解图片成像原理以及数据背后含义之后制作一个小程序# temp.pyfrom PIL import Imageimport numpy as np# 图像手绘效果a = np.asanyarray(Image.open(r'D:\学习\作业\趣图\01.jpg').convert('L')).astype('float')depth = 10grad = np.gradient...

2018-04-26 16:16:48 259

原创（80）--图片修改小技巧

# 深入理解图片成像原理以及数据背后含义之后制作一个小程序# temp.pyfrom PIL import Imageimport numpy as npa = np.array(Image.open(r'D:\学习\作业\趣图\01.jpg'))print(a.shape,a.dtype)b = [255,255,255] - aim = Image.fromarray(b.as...

2018-04-26 11:51:23 184

转载（79）--爬取网页信息

# 增加搜索功能import reimport urllib.requestimport jsondef InsertDict(D, key, value): D.setdefault(key) D[key] = valuedef GetHtml(url): response = urllib.request.urlopen(url) text = re...

2018-04-24 11:07:52 245

原创（78）--用框架爬取招聘信息

（78）--用scrapy框架简单爬取赶集网信息# main.pyfrom scrapy import cmdlinecmdline.execute('scrapy crawl spider_ganji'.split())# spider_ganji.py# -*- coding: utf-8 -*-import scrapyfrom ..items import WwwGanjiIte...

2018-04-19 15:33:25 1186

原创（77）--用框架爬取博客园信息并保存到数据库

# 用框架爬取博客园信息并保存到数据库# cnlogs_itload.py# -*- coding: utf-8 -*-import scrapyimport refrom ..items import CnblogItem,CnblogItemLoaderfrom datetime import datetimefrom w3lib.html import remove_tagsf...

2018-04-12 19:31:38 407

原创（76）--用框架爬取交友信息并保存到数据库

# 用框架爬取交友信息并保存到数据库# yuehui.py# -*- coding: utf-8 -*-import scrapyimport jsonimport mathfrom ..items import YuehuiItem,TrueHeartItemimport reclass YuehuiSpider(scrapy.Spider): name = 'yuehui...

2018-04-11 19:07:55 324

原创（75）--用框架爬取腾讯招聘信息并保存到数据库

# 用框架爬取腾讯招聘信息并保存到数据库# main.pyfrom scrapy import cmdlinecmdline.execute('scrapy crawl tencent_new'.split())# tencent_new.py# -*- coding: utf-8 -*-import scrapyfrom urllib import request,parsefrom ...

2018-04-10 16:59:42 537

原创（74）--用框架爬取腾讯招聘首页

# 用框架爬取腾讯招聘首页# tencent.py# -*- coding: utf-8 -*-import scrapyfrom ..items import JobItemfrom datetime import datetimeclass TencentSpider(scrapy.Spider): name = 'tencent' allowed_domains =...

2018-04-10 14:55:30 330

原创（73）--用框架爬取兄弟连老师信息

# 用框架爬取兄弟连老师姓名# xdl.py# -*- coding: utf-8 -*-import scrapyclass XdlSpider(scrapy.Spider): name = 'xdl' # allowed_domains = ['www.xdl.cn'] start_urls = ['http://www.itxdl.cn/activity/te...

2018-04-09 19:15:39 348

原创（72）--爬取中执行JS代码

# 用JS代码自动运行程序from selenium import webdriverimport timechrome = webdriver.Chrome(executable_path=r'E:\Python\python爬虫\chromedriver.exe')base_url = 'https://image.baidu.com/search/index?ct=201326592&...

2018-04-09 11:57:42 372

原创（71）--爬取拉勾网招聘信息

# 爬取拉勾网招聘信息from selenium import webdriverimport timefrom lxml import etreedc = { 'phantomjs.page.customHeaders.User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTM...

2018-04-09 10:16:02 763

原创（70）--爬取哦漫画图片并下载到相应文件夹

# 爬取哦漫画图片并下载到相应文件夹from selenium import webdriverimport timeimport requestsfrom bs4 import BeautifulSoupimport refrom urllib import request,parseimport os# 1.获取漫画章节链接phantom = webdriver.Phant...

2018-04-08 20:14:52 659

原创（69）-- selenium的简单应用

# selenium的简单应用from selenium import webdriverimport timebrowser = webdriver.Chrome(executable_path=r'E:\Python\python爬虫\chromedriver.exe')base_url = 'http://www.baidu.com'browser.get(base_url)...

2018-04-08 16:56:06 215

原创（68）-- 爬取糗百信息

# 爬取糗百信息import threadingfrom queue import Queueimport requestsfrom lxml import etreeimport time# 最大开启采集线程数（并发数）concurrent = 3# 解析并发数conparse = 3class Crawl(threading.Thread): def __init...

2018-04-08 16:05:49 389

原创（67）-- 多线程爬取腾讯招聘并存入数据库

# 多线程爬取腾讯招聘职位信息并存入数据库 # mydb.pyimport pymysqlclass Mydb: def __init__(self): try: self.conn = pymysql.connect('127.0.0.1','root','123456','han',charset='utf8') se...

2018-04-04 16:40:38 322

原创（66）-- 多进程爬取腾讯招聘信息

# 用多进程爬取腾讯招聘的文本信息from multiprocessing import Poolimport requestsfrom bs4 import BeautifulSoupimport timebase_url = 'http://hr.tencent.com/position.php?start=%d'headers = { 'User-Agent' : '...

2018-04-04 11:13:42 2597

原创（65）-- 爬取58交友信息

# 二级爬取58交友的名字、年龄、身高、学历、图片信息，并把这些信息保存到数据库中# 首先要在当前目录下建立一个58文件夹，然后通过Navicat连接到数据库# mydb.pyimport pymysqlclass Mydb: def __init__(self): try: self.conn = pymysql.connect('127.0....

2018-04-03 16:27:03 300

原创（65）-- 爬取兄弟连老师信息

# 爬取兄弟连老师信息，先建一个teacher文件夹from bs4 import BeautifulSoupimport requestsfrom urllib import requestimport jsonbase_url = 'http://www.itxdl.cn/activity/teacher/teacher_lieibiao/'response = requests....

2018-04-03 11:53:59 269

原创（63）-- 爬取兄弟连网页信息

# 爬取兄弟连网页信息，包括详细信息和图片import requestsfrom lxml import etreeimport jsonfrom urllib import requestdef getUrl(): base_url = 'http://www.itxdl.cn/html/php/phparticles/' response = requests.ge...

2018-04-02 19:11:06 238

原创（62）-- 打包压缩下载

# 打包压缩下载import urllibfrom urllib import requestimport osdef Schedule(a,b,c): ''' a:已下载数据块 b:已下载数据块大小 c:总文件大小 ''' per = 100.0 * a * b / c if per > 100 : ...

2018-03-30 16:26:22 211

原创（61）-- 用代理IP爬取网页

# 用随机代理IP简单爬取网页内容# download.py文件import randomfrom urllib import requestimport jsondef getProxy(): with open('xici.json', 'r', encoding='utf-8') as f: proxies = f.read() proxie...

2018-03-30 11:16:26 6065

原创（60）-- 用程序改写豆瓣会员签名

# 用程序改写自己豆瓣签名from urllib import request,parsefrom http import cookiejarimport recookie = cookiejar.CookieJar()cookie_handler = request.HTTPCookieProcessor(cookie)opener = request.build_opener(co...

2018-03-29 19:54:11 228

原创（59）-- 微信聊天小程序

# 与好友聊天小程序import itchatitchat.auto_login(hotReload=True)friends = itchat.get_friends()yourinput = input("请输入好友昵称： ")yourmessage = input("请输入发送内容：")for friend in friends: if friend['NickName']...

2018-03-29 11:56:56 1057

原创（58）-- 用正则层层爬取图片

# 用正则层层爬取图片from urllib import requestimport rebase_url = 'http://www.mmonly.cc/wmtp/fjtp/list_21_{}.html'def download(pic_url): print('downloading...%s' % pic_url) fname = pic_url.split('...

2018-03-28 20:11:51 273

原创（57）-- 用正则简单爬取图片

# 用正则爬取单页图片from urllib import requestimport rebase_url = 'https://tieba.baidu.com/p/5504076850'response = request.urlopen(base_url)html = response.read().decode('utf-8')pat = re.compile('<img ...

2018-03-28 10:37:55 372

转载（56）-- 应用程序接口(API)

应用程序接口编辑词条API之主要目的是提供应用程序与开发人员以访问一组例程的能力，而又无需访问源码，或理解内部工作机制的细节。提供API所定义的功能的软件称作此API的实现。API是一种接口，故而是一种抽象。应用程序接口（英语：ApplicationProgrammingInterface，简称：API），又称为应用编程接口，就是软件系统不同组成部分衔接的约定。由于近年来软件的规模日益庞大，常常需...

2018-03-27 20:40:47 749

原创（55）-- 简单爬取人人网个人首页信息

# 简单爬取人人网个人首页信息from urllib import requestbase_url = 'http://www.renren.com/964943656'headers = { "Host" : "www.renren.com", "Connection" : "keep-alive", "Upgrade-Insecure-Requests" : "1.

2018-03-27 16:18:45 3204

原创（54）-- 简单模拟百度翻译

# 简单模拟百度翻译from urllib import request,parseimport jsondef trans(keyword): base_url = 'http://fanyi.baidu.com/sug' data = { 'kw':keyword } data = parse.urlencode(data) head...

2018-03-27 13:57:44 539

原创（53）-- 做个简单贴吧及页数搜索

# 做个简单贴吧及页数搜索from urllib import request,parsedef search(kw,i): base_url = 'http://www.baidu.com/s?' i = int(i) pa = 50 * (i - 1) qs = { 'kw' : kw, 'pn' : pa } ...

2018-03-26 20:11:28 182

2019城市级联五级

空空如也