自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(116)
  • 资源 (2)
  • 收藏
  • 关注

原创 我的dcd爬虫-Python

获取之后,就能访问该车型,一般一个车型有好多款式,我的目的是向比较一些车型的尺寸,所以一个车型就选第一种款式,访问进入该车型第一种款式的参数配置,这样把参数下载下来,放到一个文件里,就可以比较现在卖的车的尺寸情况。我自己写的dcd爬虫,这个网站比较简单。看了看别人的程序,觉得用起来挺别扭,就自己捣鼓了一天。第二部分,我尝试了一下动态请求车型的价格。最后,下载了一些json文件。这个网站没有反爬,有一些是动态网页,有一些是静态。第三部分,获取某一车型的第一种款式的参数。首先,获取销量排行榜前300的车型。

2024-05-15 20:37:24 218

原创 继续上一个爬虫,所以说selenium加browsermobproxy

继续,书接上回,这次我通过jsrpc,也学会了不少逆向的知识,感觉对于一般的网站应该都能应付了。当然我说的是简单的网站,遇到那些混淆的,还有那种猿人学里面的题目,还是免谈了。那种需要的水平太高,我学习爬虫的目的也不是找什么工作,只是为了找数据,能够满足我找数据的需要就好。现在我的初步问题已经解决了,原以为可以使用jsrpc一路搜集数据。可是还是遇到了新的问题。接下来我想搜集这个网站的志愿服务项目的数据。

2023-09-13 12:58:24 2101

原创 记录一个爬虫过程,从基础爬虫到逆向,再到jsrpc,再到selenium,啥都包括了

这篇文章记录一下我跟一个网站的恩怨纠葛,为了爬这个网站,不断学习新知识,不断尝试,水平提高了不少。总算有点成就了,这里做一个记录,当然还是不完美,期待未来可能技术更精进,能有更好的方法吧。这个网站是:aHR0cDovL3NkLmNoaW5hdm9sdW50ZWVyLm1jYS5nb3YuY24vc3Vic2l0ZS9zaGFuZG9uZy9ob21l读者可以自己解码(后面的爬取过程还是有很多提示,不会解码也没关系,可以看后面的一些截图)。

2023-09-13 10:11:06 2578

原创 pandas快速从一列中提取数字

为了以后演示方便,把数据放着了,以后好找。我有一个表格,里面的一列是文本,我向快速的提取其中的数字。另外如果要对每一列都操作,最好写一个函数。但是这样操作一点都不pathnic。当然最笨的办法是一步一步操作。还有一种就是用apply。这样就可以提取数字了。

2023-03-28 03:50:22 961 2

原创 做了一个app,返回三国武将的排序网页,记录一下,省得以后找不到

这里在保存数组的过程中,要先JSON转变字符串,在用json解析,这样不会因为mongoose返回的object,第一个的_id字段无法解析。渲染模板的过程中,还需要对武力值排序,这个是从网上搜集到的一个数组,按照某一个键排序的函数。随机返回800多个三国武将里面的5个,然后按照这5个的武力值排序,渲染到list页面。查询之前,使用random,随机生成700以内的数字,这些数字,可以作为find的参数,skip,首先把三国的表引入,在model下面的db里面定义好的,然后,查询武将,

2023-03-16 00:02:49 117

原创 express框架利用formidable上传图片

这里我直接使用的是art模板,比较喜欢art,ejs模板里面的尖括号,实在有点反人类,感觉尖括号阔的人都晕了,还是art更加简洁。感觉学习就是,黑马的视频还是很不错,反复看,做出来一个项目,然后再把项目里面的细节反复做几遍,弄出自己的东西,整体之后,把各个小的知识点再钻研透了。下面,在body上方,插入一段js,主要两个工作,1.接收上传的图片,2.当图片上传完之后,渲染出图片。index页面直接就是上传文件和填写表单的页面,因此,直接在index的路由里面,不用管,里面就一个大的form,其实不复杂。

2023-03-15 22:13:08 765

转载 记录一下学习 express过程,实现上传图片功能呢。

使用express+multer实现node中的图片上传功能 – 悠悠之家。xiaoguo 非常好。自己试了一遍,可以。

2023-03-15 18:03:45 272

原创 记录一下,学习express的小成就

没有参考价值,在此只是为了做个记录。对于nodejs,终于可以自己探索,也算是入门了吧。\views下是网页代码,下面有两个网页文件 inputForm.ejs 和 output.ejs。我的目录是 \model \views,就这两个,\model 下是db.js。终于搞出来了mongoose 和express 前后端链接的部分。这个文档非常的粗糙,以后还会出更条理化的。主要目的是为了使用markdown转换网页。直接输入markdown文件,就可以了。打开 localhost。渲染之后的网页是这样的。

2023-03-05 21:30:12 1918

原创 nodejs 查询mongodb

使用mongodb库,可以查询mongodb,不喜欢使用mongoose。不知道为啥,使用mongoose还必须新建schema,好多都要新建,没有找到其他方法,还是用mongdb。也可以不使用wherestr,这样返回整个数据库的结果。把find括号里面的wherestr删掉就可以了。也可以指定数组的索引。

2023-02-04 00:28:00 262

原创 pandas学习之电影评分(利用python进行统计分析)的学习笔记

之前看《利用python进行数据分析》的书,觉得里面电影评分的例子非常好。只是看别人的代码,觉得棒,实际动手自己做,还是眼高手低。印象最深的是电影《阿呆和阿瓜》男性评分很高,女性评分反而比较低。我看过这个电影,所以觉得很有趣,今天试着做了出来。代码很烂,后期再继续学习,直接贴上了。反正自己做的,不要求多好,凑合着自己看吧。尽管如此,还是实现了分析目的,就是比较男性和女性对不同电影的评分差异。解决了这个,后面就是数据合并,透视表,基本的描述统计了。其中特别要说名的是,电影的名字数据表,必须指定“

2022-10-30 22:46:43 1350

原创 写了一个模拟大炮概率的程序

可以用概率的方法来做,比如和事件,逆事件,这里直接用模拟的方法,假设可以发射10000次, 结果自然就可以知道。问题源于一到概率题目。

2022-09-18 19:12:54 148

原创 替换文章中的关键词

最近写豆瓣,写一写个人感想,现在的网络环境,就是很多不能说,有些词,不能通过审核,我自己手动把一些关键词替换掉。想到用Python直接写了一个简单脚本。这一段,是一遍一遍筛选词,一遍一遍替换,效率有点低,但是还没想到更好更高效的解决办法。结果就是这样的,不知道能不能通过审核发布,比如,把这些次替换掉。希望有高手帮忙指点。...

2022-08-28 21:01:32 142

原创 Counter完之后,想统计字符串长度大于2的结果

最近遇到一个问题,我用Counter 统计了一下一个corpus,corpus是已经使用jieba分好的。得到一个这样的结果。我向还是统计一下字符长度大于等于2的吧。这时候c是counter返回的结果。c本身就是个字典。所以我想找出字典里key的长度大于2的。用这个 先得到dct_c2,这时候c2是一个长度大于2的字典,但是没有排序。再用sorted,按照value值排序一下。就可以得到一个近似counter的统计。这时候就得到了一个新的字典。不过不能使用.most_common()...

2022-06-21 10:33:51 204

原创 pandas 怎么样扩展数据,就是把加权数据,转换成个案数据

之前一直用stata,觉得有一个很好用的功能呢,就是expand,具体来说就是,比如有一个交叉表,是这样的。这是风笑天社会研究方法一书里的例子,我想把这个数据变成个案数据,让学生练习,首先,你的按照百分比,计算出每一个格子的绝对数,大概是这么多。如果使用spss统计的话,spss菜单里有一个weight 菜单。可以很轻松的解决这个问题。不需要把加权数据变成个案数据。但是如果使用excel的话,就不行,我向把数据变成这样的,就是变成单独一个人的,通俗的理解就是把权重..

2022-05-27 15:21:01 347

转载 ppt设置字体,抄过来的。

Sub ChangeTextFont() Set pages = ActivePresentation.Slides.Range pageCount = pages.Count '第一页和最后一页跳过 For i = 2 To pageCount - 1 DoEvents ActiveWindow.View.GotoSlide Index:=i shapeCount = ActiveWindo.

2022-05-16 08:10:12 251

原创 记录一下实验室打开excel文件的尴尬。

实验室电脑只有原装的python本来打开excel很简单的事情。padnas直接读。结果报错。试了好几遍。都不行。这里记录一下。需要安装 两个,openpyxlxlrdpip install openpyxlpip install xlrd安装完之后,在读,如果还出错。那么 改成csv, 读csv 时。df = pd.read_csv("content.csv", engine='python')读excel时df2 = pd.read_.

2022-04-13 17:38:09 601

原创 制作一个中国蔬菜产量图

微博上看到的数据import geopandas as gpdchina = gpd.read_file("MLgis/feifuli3_geometry/china_provinces.json")albers_proj = '+proj=aea +lat_1=25 +lat_2=47 +lon_0=105'veg_product = pd.read_json('{"2020\\u5e7431\\u4e2a\\u7701\\u4efd\\u852c\\u83dc\\u4ea7\\u91c

2022-04-13 07:11:39 313 1

原创 删除dataframe的第一列

由于保存excel的时候,没有设置index=None。所以再读进来的时候,经常出现Unnamed 列。直接删掉的话,可以使用。df.keys()del df[df.keys()[0]]df.keys()不断重复,直到把没用的列删除干净就可以了。del 可以直接删除,不需要inplace...

2022-04-11 08:57:51 3233

原创 pandas的reindex功能

pandas的reindex功能挺好用,记录一下。数据只列出一部分吧。#---------------------------------------------------------##---- * reindex命令 * ----##---------------------------------------------------------#import pandas as pdimport matplotlib.pyplot

2022-04-05 21:54:45 882

原创 百度贴吧 数据分析

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport reimport osfrom collections import Counterimport time# import requests# from scrapy import Selector# import seaborn as snsimport jiebaimport jieba.posseg as psgplt.rc.

2022-04-04 21:08:25 722

原创 做一个世界地图

import pandas as pddf = pd.read_json('{"country":{"0":"Norway","1":"Iceland","2":"Sweden","3":"New Zealand","4":"Canada","5":"Finland","6":"Denmark","7":"Ireland","8":"Australia","9":"Netherlands","10":"Taiwan","11":"Switzerland","12":"Luxembourg","13...

2022-04-03 16:13:48 570

原创 儿童视力数据(2)

接上文生成一个近视指标。看看不同年龄段的近视比例df['idx_of_nearSight'] = (df['sight_impaired'] == True ) & ((df['right_s'] < -0.5) |(df['left_s'] < -0.5))df['idx_of_nearSight'].value_counts()df.groupby('type')['idx_of_nearSight'].value_counts(normalize=True).

2022-02-16 06:03:14 517 3

原创 记录一次数据分析的过程。儿童视力数据(1)

最近分析了一个儿童视力数据,记录一下。有需要数据的小伙伴可以去下载。import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport reimport osimport seaborn as snsimport scipy.stats as ssplt.rcParams['font.family'] = ['SimHei']plt.rcParams['axes.unicode_minus'] = Fal

2022-02-16 04:27:25 851 4

原创 pandas to_json转换时强制中文而不是unicode

pandas to_json转换时强制中文而不是unicode使用这一句df.to_json(force_ascii=False)

2022-02-04 17:14:06 2094

原创 列联表分析程序,以卢淑华书上的例子为例

#---------------------------------------------------------##--- * 我的 列联表数据构造 * ----##--------------------------------------------------------#like = np.array([[1, 2, 3], [1, 2, 3], [1, 2, 3]])freq = np.repeat(like, [20, 5, 2.

2021-11-22 18:20:19 1187

原创 做一个中国疫情地图

疫情数据用这个,新冠肺炎疫情情况点击检查,后台的数据里面有个、这里有显示很多天的疫情信息,我们只需要一天的,所以用最后一行。我这儿是349行。101行是省份就这两个。就可以。复制出来。作图使用pyechartsDocument这里把fake.province 和fake.values(),替换成我们的就可以了。但是这样各省人数不一,颜色都是一样的。所以设置pieces 为、visualmap_opts=opts.VisualMap...

2021-10-19 08:47:37 633

原创 不用python编程,制作词云图

主要用这三个网站。在线分词工具|在线切词:中文切词工具|中文分词工具|中文在线分词http://www.78901.net/Participle/?ac=done微词云_在线词频统计分析工具_词云图生成器https://www.weiciyun.com/fenci/Edit word art - WordArt.comhttps://wordart.com/create第三个网站是国外的,登陆可能慢一点。绘制词云,首先得有文本材料。爬取数据,采用webscraper.举例说明。制

2021-10-14 09:11:50 469

原创 爬虫+数据分析,制作一个世界疫情人数增长动态柱状竞赛图2

有了上面的数据,直接读进来。allData = pd.read_pickle(os.path.join(data_dir, "allData疫情数据"))然后,提取日期,congfirm,组成dataframedef make_data(allData): col = allData.keys() dct_coutry = {} for c in col: one_country = allData[c] list = one_c.

2021-10-05 23:10:19 366

原创 爬虫+数据分析,制作一个世界疫情人数增长动态柱状竞赛图

世界疫情的数据很多网站都有,这里我还是使用手机网易的疫情数据接口。首先,切换ua,换成手机模式。百度搜索“网易 疫情”,第一个就是。打开这个网址,点开开发者工具,刷新一下。就可以看到有这么几个,第一个请求,就是数据但是这里我们要用的是世界疫情。所以,还得往下多看几眼。这第一个请求里,会给你今天的世界疫情数据。但是我们想绘制的是随着时间变化,增长的数据竞赛柱状图。只有一天是不行的。但是,这里有一个游泳的数据是,areaTree下面,每一个国家的id都有了。后面用数据的请求.

2021-10-03 23:26:36 867 2

原创 使用geopandas 制作中国疫情地图

最近要做一个中国地图,以前用pyecharts,最近接触了geopandas 觉得很强大,改用geopandas作图。比如我制作一个疫情分布地图,效果应该是这样的。最终效果。首先导入需要用的库:import pandas as pdimport matplotlib.pyplot as pltimport requestsimport geopandas as gpdplt.rcParams['font.family'] = 'SimHei'然后使用爬虫把疫情数据怕取下来,我使用.

2021-10-01 11:29:53 1631

原创 动态网页的爬取,微博,澎湃新闻

动态网页的爬取,首先是澎湃新闻。澎湃新闻-专注时政与思想-ThePaper.cn。点击进入网页, 点检查,刷新,选择xhr,就可以看到澎湃新闻的ajax请求,会返回一个无格式的网页。网页是这样的。随便点开一个。preview一下,可以看到是新闻的内容。只不过渲染了一下。现在是我们只想要 新闻标题,新闻时间,发布来源。可以通过css提取。把返回结果复制出来,用chrome打开,可以看到使用简单的css选择器,就可以提取。,接下来是程序...

2021-09-12 11:48:52 881

原创 请求时的编码问题 Use body.encode(‘utf-8‘) if you want to send it encoded in UTF-8

今天发现一个网站,新榜,是各大网站,视频好的排行网站,请求时动态网页的xhr。网络里选择xhr刷新就可以看到数据。代码如下:import requestsheaders = { 'authority': 'www.newrank.cn', 'sec-ch-ua': '"Microsoft Edge";v="95", "Chromium";v="95", ";Not A Brand";v="99"', 'accept': 'application/json,

2021-09-09 05:31:17 1966

原创 python爬虫,爬取猫眼电影2(xpath和bs4)

接着上面的。使用xpath提取信息,虽然python很多库,比如beautifulsoup,也有很多功能,比如查找节点,添加删除节点。但是个人感觉对爬虫来说,最重要的还是提取信息,当然,顺利的提取信息的前提是你得掌握好这些库的用法,不过有些功能确实一辈子也不会用到。对爬虫来说,就是提取文本,获取属性,这两个。还是打开页面,这里我直接读入本地的文件,知识为了简单起见。不在requests了。我们自己做网页爬虫的时候,还是需要借助一些工具的。比如xpath。我经常用的就是 浏览器的xpath hel

2021-09-06 16:08:30 1012

原创 python爬虫,爬取猫眼电影1(正则表达式)

本文用正则、xpath、beautifulsoup、css、pyquery几种不同的方式,爬取猫眼电影。只是记录过程。比较乱。猫眼电影现在也添加了一些反爬虫机制,如果直接用requests可能会403.所以最好添加header 和cookies。添加的方法是使用网页的自动生成请求。浏览器登陆,直接百度搜。点击榜单点击top100出来页面之后,点击检查按钮,调出开发者工具。选择network选项卡,然后在页面上,点击右键弹出“重新加载”,有的浏览器可能是“刷新”都...

2021-09-06 15:32:53 1756

原创 python,制作山东省的地图 热力图

python制作一个山东省的地图热力图。可以这么做。

2021-08-16 16:00:29 1214

原创 利用python进行统计分析学习笔记 第7章

第7章,基本功能部分,讲到了函数应用和映射这里作者说了。,将函数应用到由各列或行所形成的一维数组上。DataFrame 的apply方法即可实现此功能:然后又说,元素级的Python函数也是可以用的。假如你想得到frame中各个浮点值的格式化字 符串,使用applymap即可: 这里我的理解是,apply可以应用与列或者行,map则是应用到每个元素的。比如可以使用一个元素级别的函数,比如这样;但是这个函数,用职能map到元素级别,要应用..

2021-08-11 10:53:08 104

原创 pycharm调出参数提示气泡

用pycharm的时候,有时候想调出参数提示的气泡。(不是函数文档,不是帮助文件。)我只是想调出来简要的提示。是这样的。就是这样的,不需要按住ctrl 点击鼠标,效果是不一样的。这样的提示我觉得没有必要。太复杂,反而看不懂。有没有小伙伴跟我一样的感受。我百度了一下,pycharm没有为这个功能提供快捷键。自己设置了一个。原来提供快捷键,但是我的电脑里,ctrl + p 不知道为什么不好用,我自己设置了一个 alt +\。测试有效。...

2021-08-11 08:22:38 1519 1

原创 python进行数据分析,学习笔记 第8章(1)

理论

2021-08-11 08:16:41 70

原创 利用python进行数据分析学习笔记 第7章(3)

'''python 使用正则表达式, 也可以先 编译一个正则, 然后,用这个正则 去 match ,search , findall'''text = "text my * IOD soela MYVso its Tye We tokyo hot "pattern = r'my'regex = re.compile(pattern, flags=re.IGNORECASE)regex.search(text)print(regex.search(text))regex.search(te.

2021-08-10 18:12:17 79

原创 利用python进行统计及分析第7章,构建电影分类的dummies

########################################################## 对电影数据的操作。 生成哑变量#####################################################import osdata_dir = "python数据科学手册/pydata-book-2nd-edition-代码/datasets/movielens"mnames = ['movie_id', 'title', 'genres'].

2021-08-10 15:56:34 510

儿童青少年视力数据8777个

这个是博客里提到的儿童青少年视力数据。共8777个。只是为了科学研究,希望转载的注明出处。不要用与其他目的。

2022-02-16

shandong.json

山东省的地图文件,做热力图的代码在我的博客里。

2021-08-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除