JECK_ケーキ-CSDN博客

原创我的dcd爬虫-Python

获取之后，就能访问该车型，一般一个车型有好多款式，我的目的是向比较一些车型的尺寸，所以一个车型就选第一种款式，访问进入该车型第一种款式的参数配置，这样把参数下载下来，放到一个文件里，就可以比较现在卖的车的尺寸情况。我自己写的dcd爬虫，这个网站比较简单。看了看别人的程序，觉得用起来挺别扭，就自己捣鼓了一天。第二部分，我尝试了一下动态请求车型的价格。最后，下载了一些json文件。这个网站没有反爬，有一些是动态网页，有一些是静态。第三部分，获取某一车型的第一种款式的参数。首先，获取销量排行榜前300的车型。

2024-05-15 20:37:24 218

原创继续上一个爬虫，所以说selenium加browsermobproxy

继续，书接上回，这次我通过jsrpc，也学会了不少逆向的知识，感觉对于一般的网站应该都能应付了。当然我说的是简单的网站，遇到那些混淆的，还有那种猿人学里面的题目，还是免谈了。那种需要的水平太高，我学习爬虫的目的也不是找什么工作，只是为了找数据，能够满足我找数据的需要就好。现在我的初步问题已经解决了，原以为可以使用jsrpc一路搜集数据。可是还是遇到了新的问题。接下来我想搜集这个网站的志愿服务项目的数据。

2023-09-13 12:58:24 2101

原创记录一个爬虫过程，从基础爬虫到逆向，再到jsrpc，再到selenium，啥都包括了

这篇文章记录一下我跟一个网站的恩怨纠葛，为了爬这个网站，不断学习新知识，不断尝试，水平提高了不少。总算有点成就了，这里做一个记录，当然还是不完美，期待未来可能技术更精进，能有更好的方法吧。这个网站是：aHR0cDovL3NkLmNoaW5hdm9sdW50ZWVyLm1jYS5nb3YuY24vc3Vic2l0ZS9zaGFuZG9uZy9ob21l读者可以自己解码（后面的爬取过程还是有很多提示，不会解码也没关系，可以看后面的一些截图）。

2023-09-13 10:11:06 2578

原创 pandas快速从一列中提取数字

为了以后演示方便，把数据放着了，以后好找。我有一个表格，里面的一列是文本，我向快速的提取其中的数字。另外如果要对每一列都操作，最好写一个函数。但是这样操作一点都不pathnic。当然最笨的办法是一步一步操作。还有一种就是用apply。这样就可以提取数字了。

2023-03-28 03:50:22 961 2

原创做了一个app，返回三国武将的排序网页，记录一下，省得以后找不到

这里在保存数组的过程中，要先JSON转变字符串，在用json解析，这样不会因为mongoose返回的object，第一个的_id字段无法解析。渲染模板的过程中，还需要对武力值排序，这个是从网上搜集到的一个数组，按照某一个键排序的函数。随机返回800多个三国武将里面的5个，然后按照这5个的武力值排序，渲染到list页面。查询之前，使用random，随机生成700以内的数字，这些数字，可以作为find的参数，skip，首先把三国的表引入，在model下面的db里面定义好的，然后，查询武将，

2023-03-16 00:02:49 117

原创 express框架利用formidable上传图片

这里我直接使用的是art模板，比较喜欢art，ejs模板里面的尖括号，实在有点反人类，感觉尖括号阔的人都晕了，还是art更加简洁。感觉学习就是，黑马的视频还是很不错，反复看，做出来一个项目，然后再把项目里面的细节反复做几遍，弄出自己的东西，整体之后，把各个小的知识点再钻研透了。下面，在body上方，插入一段js，主要两个工作，1.接收上传的图片，2.当图片上传完之后，渲染出图片。index页面直接就是上传文件和填写表单的页面，因此，直接在index的路由里面，不用管，里面就一个大的form，其实不复杂。

2023-03-15 22:13:08 765

转载记录一下学习 express过程，实现上传图片功能呢。

使用express+multer实现node中的图片上传功能 – 悠悠之家。xiaoguo 非常好。自己试了一遍，可以。

2023-03-15 18:03:45 272

原创记录一下，学习express的小成就

没有参考价值，在此只是为了做个记录。对于nodejs，终于可以自己探索，也算是入门了吧。\views下是网页代码,下面有两个网页文件 inputForm.ejs 和 output.ejs。我的目录是 \model \views，就这两个，\model 下是db.js。终于搞出来了mongoose 和express 前后端链接的部分。这个文档非常的粗糙，以后还会出更条理化的。主要目的是为了使用markdown转换网页。直接输入markdown文件，就可以了。打开 localhost。渲染之后的网页是这样的。

2023-03-05 21:30:12 1918

原创 nodejs 查询mongodb

使用mongodb库，可以查询mongodb，不喜欢使用mongoose。不知道为啥，使用mongoose还必须新建schema，好多都要新建，没有找到其他方法，还是用mongdb。也可以不使用wherestr，这样返回整个数据库的结果。把find括号里面的wherestr删掉就可以了。也可以指定数组的索引。

2023-02-04 00:28:00 262

原创 pandas学习之电影评分（利用python进行统计分析）的学习笔记

之前看《利用python进行数据分析》的书，觉得里面电影评分的例子非常好。只是看别人的代码，觉得棒，实际动手自己做，还是眼高手低。印象最深的是电影《阿呆和阿瓜》男性评分很高，女性评分反而比较低。我看过这个电影，所以觉得很有趣，今天试着做了出来。代码很烂，后期再继续学习，直接贴上了。反正自己做的，不要求多好，凑合着自己看吧。尽管如此，还是实现了分析目的，就是比较男性和女性对不同电影的评分差异。解决了这个，后面就是数据合并，透视表，基本的描述统计了。其中特别要说名的是，电影的名字数据表，必须指定“

2022-10-30 22:46:43 1350

原创写了一个模拟大炮概率的程序

可以用概率的方法来做，比如和事件，逆事件，这里直接用模拟的方法，假设可以发射10000次，结果自然就可以知道。问题源于一到概率题目。

2022-09-18 19:12:54 148

原创替换文章中的关键词

最近写豆瓣，写一写个人感想，现在的网络环境，就是很多不能说，有些词，不能通过审核，我自己手动把一些关键词替换掉。想到用Python直接写了一个简单脚本。这一段，是一遍一遍筛选词，一遍一遍替换，效率有点低，但是还没想到更好更高效的解决办法。结果就是这样的，不知道能不能通过审核发布，比如，把这些次替换掉。希望有高手帮忙指点。...

2022-08-28 21:01:32 142

原创 Counter完之后，想统计字符串长度大于2的结果

最近遇到一个问题，我用Counter 统计了一下一个corpus，corpus是已经使用jieba分好的。得到一个这样的结果。我向还是统计一下字符长度大于等于2的吧。这时候c是counter返回的结果。c本身就是个字典。所以我想找出字典里key的长度大于2的。用这个先得到dct_c2，这时候c2是一个长度大于2的字典，但是没有排序。再用sorted，按照value值排序一下。就可以得到一个近似counter的统计。这时候就得到了一个新的字典。不过不能使用.most_common()...

2022-06-21 10:33:51 204

原创 pandas 怎么样扩展数据，就是把加权数据，转换成个案数据

之前一直用stata，觉得有一个很好用的功能呢，就是expand，具体来说就是，比如有一个交叉表，是这样的。这是风笑天社会研究方法一书里的例子，我想把这个数据变成个案数据，让学生练习，首先，你的按照百分比，计算出每一个格子的绝对数，大概是这么多。如果使用spss统计的话，spss菜单里有一个weight 菜单。可以很轻松的解决这个问题。不需要把加权数据变成个案数据。但是如果使用excel的话，就不行，我向把数据变成这样的，就是变成单独一个人的，通俗的理解就是把权重..

2022-05-27 15:21:01 347

转载 ppt设置字体，抄过来的。

Sub ChangeTextFont() Set pages = ActivePresentation.Slides.Range pageCount = pages.Count '第一页和最后一页跳过 For i = 2 To pageCount - 1 DoEvents ActiveWindow.View.GotoSlide Index:=i shapeCount = ActiveWindo.

2022-05-16 08:10:12 251

原创记录一下实验室打开excel文件的尴尬。

实验室电脑只有原装的python本来打开excel很简单的事情。padnas直接读。结果报错。试了好几遍。都不行。这里记录一下。需要安装两个，openpyxlxlrdpip install openpyxlpip install xlrd安装完之后，在读，如果还出错。那么改成csv，读csv 时。df = pd.read_csv("content.csv", engine='python')读excel时df2 = pd.read_.

2022-04-13 17:38:09 601

原创制作一个中国蔬菜产量图

微博上看到的数据import geopandas as gpdchina = gpd.read_file("MLgis/feifuli3_geometry/china_provinces.json")albers_proj = '+proj=aea +lat_1=25 +lat_2=47 +lon_0=105'veg_product = pd.read_json('{"2020\\u5e7431\\u4e2a\\u7701\\u4efd\\u852c\\u83dc\\u4ea7\\u91c

2022-04-13 07:11:39 313 1

原创删除dataframe的第一列

由于保存excel的时候，没有设置index=None。所以再读进来的时候，经常出现Unnamed 列。直接删掉的话，可以使用。df.keys()del df[df.keys()[0]]df.keys()不断重复，直到把没用的列删除干净就可以了。del 可以直接删除，不需要inplace...

2022-04-11 08:57:51 3233

原创 pandas的reindex功能

pandas的reindex功能挺好用，记录一下。数据只列出一部分吧。#---------------------------------------------------------##---- * reindex命令 * ----##---------------------------------------------------------#import pandas as pdimport matplotlib.pyplot

2022-04-05 21:54:45 882

原创百度贴吧数据分析

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport reimport osfrom collections import Counterimport time# import requests# from scrapy import Selector# import seaborn as snsimport jiebaimport jieba.posseg as psgplt.rc.

2022-04-04 21:08:25 722

原创做一个世界地图

import pandas as pddf = pd.read_json('{"country":{"0":"Norway","1":"Iceland","2":"Sweden","3":"New Zealand","4":"Canada","5":"Finland","6":"Denmark","7":"Ireland","8":"Australia","9":"Netherlands","10":"Taiwan","11":"Switzerland","12":"Luxembourg","13...

2022-04-03 16:13:48 570

原创儿童视力数据（2）

接上文生成一个近视指标。看看不同年龄段的近视比例df['idx_of_nearSight'] = (df['sight_impaired'] == True ) & ((df['right_s'] < -0.5) |(df['left_s'] < -0.5))df['idx_of_nearSight'].value_counts()df.groupby('type')['idx_of_nearSight'].value_counts(normalize=True).

2022-02-16 06:03:14 517 3

原创记录一次数据分析的过程。儿童视力数据（1）

最近分析了一个儿童视力数据，记录一下。有需要数据的小伙伴可以去下载。import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport reimport osimport seaborn as snsimport scipy.stats as ssplt.rcParams['font.family'] = ['SimHei']plt.rcParams['axes.unicode_minus'] = Fal

2022-02-16 04:27:25 851 4

原创 pandas to_json转换时强制中文而不是unicode

pandas to_json转换时强制中文而不是unicode使用这一句df.to_json(force_ascii=False)

2022-02-04 17:14:06 2094

原创列联表分析程序，以卢淑华书上的例子为例

#---------------------------------------------------------##--- * 我的列联表数据构造 * ----##--------------------------------------------------------#like = np.array([[1, 2, 3], [1, 2, 3], [1, 2, 3]])freq = np.repeat(like, [20, 5, 2.

2021-11-22 18:20:19 1187

原创做一个中国疫情地图

疫情数据用这个，新冠肺炎疫情情况点击检查，后台的数据里面有个、这里有显示很多天的疫情信息，我们只需要一天的，所以用最后一行。我这儿是349行。101行是省份就这两个。就可以。复制出来。作图使用pyechartsDocument这里把fake.province 和fake.values()，替换成我们的就可以了。但是这样各省人数不一，颜色都是一样的。所以设置pieces 为、visualmap_opts=opts.VisualMap...

2021-10-19 08:47:37 633

原创不用python编程，制作词云图

主要用这三个网站。在线分词工具|在线切词:中文切词工具|中文分词工具|中文在线分词http://www.78901.net/Participle/?ac=done微词云_在线词频统计分析工具_词云图生成器https://www.weiciyun.com/fenci/Edit word art - WordArt.comhttps://wordart.com/create第三个网站是国外的，登陆可能慢一点。绘制词云，首先得有文本材料。爬取数据，采用webscraper.举例说明。制

2021-10-14 09:11:50 469

原创爬虫+数据分析，制作一个世界疫情人数增长动态柱状竞赛图2

有了上面的数据，直接读进来。allData = pd.read_pickle(os.path.join(data_dir, "allData疫情数据"))然后，提取日期，congfirm，组成dataframedef make_data(allData): col = allData.keys() dct_coutry = {} for c in col: one_country = allData[c] list = one_c.

2021-10-05 23:10:19 366

原创爬虫+数据分析，制作一个世界疫情人数增长动态柱状竞赛图

世界疫情的数据很多网站都有，这里我还是使用手机网易的疫情数据接口。首先，切换ua，换成手机模式。百度搜索“网易疫情”，第一个就是。打开这个网址，点开开发者工具，刷新一下。就可以看到有这么几个，第一个请求，就是数据但是这里我们要用的是世界疫情。所以，还得往下多看几眼。这第一个请求里，会给你今天的世界疫情数据。但是我们想绘制的是随着时间变化，增长的数据竞赛柱状图。只有一天是不行的。但是，这里有一个游泳的数据是，areaTree下面，每一个国家的id都有了。后面用数据的请求.

2021-10-03 23:26:36 867 2

原创使用geopandas 制作中国疫情地图

最近要做一个中国地图，以前用pyecharts，最近接触了geopandas 觉得很强大，改用geopandas作图。比如我制作一个疫情分布地图，效果应该是这样的。最终效果。首先导入需要用的库：import pandas as pdimport matplotlib.pyplot as pltimport requestsimport geopandas as gpdplt.rcParams['font.family'] = 'SimHei'然后使用爬虫把疫情数据怕取下来，我使用.

2021-10-01 11:29:53 1631

原创动态网页的爬取，微博，澎湃新闻

动态网页的爬取，首先是澎湃新闻。澎湃新闻-专注时政与思想-ThePaper.cn。点击进入网页，点检查，刷新，选择xhr，就可以看到澎湃新闻的ajax请求，会返回一个无格式的网页。网页是这样的。随便点开一个。preview一下，可以看到是新闻的内容。只不过渲染了一下。现在是我们只想要新闻标题，新闻时间，发布来源。可以通过css提取。把返回结果复制出来，用chrome打开，可以看到使用简单的css选择器，就可以提取。，接下来是程序...

2021-09-12 11:48:52 881

原创请求时的编码问题 Use body.encode(‘utf-8‘) if you want to send it encoded in UTF-8

今天发现一个网站，新榜，是各大网站，视频好的排行网站，请求时动态网页的xhr。网络里选择xhr刷新就可以看到数据。代码如下：import requestsheaders = { 'authority': 'www.newrank.cn', 'sec-ch-ua': '"Microsoft Edge";v="95", "Chromium";v="95", ";Not A Brand";v="99"', 'accept': 'application/json,

2021-09-09 05:31:17 1966

原创 python爬虫，爬取猫眼电影2（xpath和bs4）

接着上面的。使用xpath提取信息，虽然python很多库，比如beautifulsoup，也有很多功能，比如查找节点，添加删除节点。但是个人感觉对爬虫来说，最重要的还是提取信息，当然，顺利的提取信息的前提是你得掌握好这些库的用法，不过有些功能确实一辈子也不会用到。对爬虫来说，就是提取文本，获取属性，这两个。还是打开页面，这里我直接读入本地的文件，知识为了简单起见。不在requests了。我们自己做网页爬虫的时候，还是需要借助一些工具的。比如xpath。我经常用的就是浏览器的xpath hel

2021-09-06 16:08:30 1012

原创 python爬虫，爬取猫眼电影1（正则表达式）

本文用正则、xpath、beautifulsoup、css、pyquery几种不同的方式，爬取猫眼电影。只是记录过程。比较乱。猫眼电影现在也添加了一些反爬虫机制，如果直接用requests可能会403.所以最好添加header 和cookies。添加的方法是使用网页的自动生成请求。浏览器登陆，直接百度搜。点击榜单点击top100出来页面之后，点击检查按钮，调出开发者工具。选择network选项卡，然后在页面上，点击右键弹出“重新加载”，有的浏览器可能是“刷新”都...

2021-09-06 15:32:53 1756

原创 python，制作山东省的地图热力图

python制作一个山东省的地图热力图。可以这么做。

2021-08-16 16:00:29 1214

原创利用python进行统计分析学习笔记第7章

第7章，基本功能部分，讲到了函数应用和映射这里作者说了。，将函数应用到由各列或行所形成的一维数组上。DataFrame 的apply方法即可实现此功能：然后又说，元素级的Python函数也是可以用的。假如你想得到frame中各个浮点值的格式化字符串，使用applymap即可：这里我的理解是，apply可以应用与列或者行，map则是应用到每个元素的。比如可以使用一个元素级别的函数，比如这样；但是这个函数，用职能map到元素级别，要应用..

2021-08-11 10:53:08 104

原创 pycharm调出参数提示气泡

用pycharm的时候，有时候想调出参数提示的气泡。（不是函数文档，不是帮助文件。）我只是想调出来简要的提示。是这样的。就是这样的，不需要按住ctrl 点击鼠标，效果是不一样的。这样的提示我觉得没有必要。太复杂，反而看不懂。有没有小伙伴跟我一样的感受。我百度了一下，pycharm没有为这个功能提供快捷键。自己设置了一个。原来提供快捷键，但是我的电脑里，ctrl + p 不知道为什么不好用，我自己设置了一个 alt +\。测试有效。...

2021-08-11 08:22:38 1519 1

原创 python进行数据分析，学习笔记第8章（1）

理论

2021-08-11 08:16:41 70

原创利用python进行数据分析学习笔记第7章（3）

'''python 使用正则表达式，也可以先编译一个正则，然后，用这个正则去 match ,search , findall'''text = "text my * IOD soela MYVso its Tye We tokyo hot "pattern = r'my'regex = re.compile(pattern, flags=re.IGNORECASE)regex.search(text)print(regex.search(text))regex.search(te.

2021-08-10 18:12:17 79

原创利用python进行统计及分析第7章，构建电影分类的dummies

########################################################## 对电影数据的操作。生成哑变量#####################################################import osdata_dir = "python数据科学手册/pydata-book-2nd-edition-代码/datasets/movielens"mnames = ['movie_id', 'title', 'genres'].

2021-08-10 15:56:34 510

儿童青少年视力数据8777个

shandong.json

空空如也