JECK_ケーキ
码龄8年
关注
提问 私信
  • 博客:226,004
    社区:1
    226,005
    总访问量
  • 114
    原创
  • 1,140,873
    排名
  • 94
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:山东省
  • 加入CSDN时间: 2017-09-21
博客简介:

weixin_40340586的博客

查看详细资料
  • 原力等级
    当前等级
    4
    当前总分
    974
    当月
    6
个人成就
  • 获得111次点赞
  • 内容获得46次评论
  • 获得443次收藏
  • 代码片获得806次分享
创作历程
  • 1篇
    2024年
  • 8篇
    2023年
  • 15篇
    2022年
  • 67篇
    2021年
  • 24篇
    2020年
  • 1篇
    2019年
成就勋章
TA的专栏
  • python
    87篇
  • pandas
    15篇
  • 笔记
    7篇
  • nlp
    2篇
  • 词云图
    4篇
  • matplotlib
    5篇
  • win
    2篇
  • ts
  • vim
    1篇
兴趣领域 设置
  • 人工智能
    语音识别机器学习深度学习自然语言处理nlp数据分析
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

我的dcd爬虫-Python

获取之后,就能访问该车型,一般一个车型有好多款式,我的目的是向比较一些车型的尺寸,所以一个车型就选第一种款式,访问进入该车型第一种款式的参数配置,这样把参数下载下来,放到一个文件里,就可以比较现在卖的车的尺寸情况。我自己写的dcd爬虫,这个网站比较简单。看了看别人的程序,觉得用起来挺别扭,就自己捣鼓了一天。第二部分,我尝试了一下动态请求车型的价格。最后,下载了一些json文件。这个网站没有反爬,有一些是动态网页,有一些是静态。第三部分,获取某一车型的第一种款式的参数。首先,获取销量排行榜前300的车型。
原创
发布博客 2024.05.15 ·
834 阅读 ·
2 点赞 ·
0 评论 ·
5 收藏

继续上一个爬虫,所以说selenium加browsermobproxy

继续,书接上回,这次我通过jsrpc,也学会了不少逆向的知识,感觉对于一般的网站应该都能应付了。当然我说的是简单的网站,遇到那些混淆的,还有那种猿人学里面的题目,还是免谈了。那种需要的水平太高,我学习爬虫的目的也不是找什么工作,只是为了找数据,能够满足我找数据的需要就好。现在我的初步问题已经解决了,原以为可以使用jsrpc一路搜集数据。可是还是遇到了新的问题。接下来我想搜集这个网站的志愿服务项目的数据。
原创
发布博客 2023.09.13 ·
2497 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

记录一个爬虫过程,从基础爬虫到逆向,再到jsrpc,再到selenium,啥都包括了

这篇文章记录一下我跟一个网站的恩怨纠葛,为了爬这个网站,不断学习新知识,不断尝试,水平提高了不少。总算有点成就了,这里做一个记录,当然还是不完美,期待未来可能技术更精进,能有更好的方法吧。这个网站是:aHR0cDovL3NkLmNoaW5hdm9sdW50ZWVyLm1jYS5nb3YuY24vc3Vic2l0ZS9zaGFuZG9uZy9ob21l读者可以自己解码(后面的爬取过程还是有很多提示,不会解码也没关系,可以看后面的一些截图)。
原创
发布博客 2023.09.13 ·
2725 阅读 ·
1 点赞 ·
0 评论 ·
5 收藏

pandas快速从一列中提取数字

为了以后演示方便,把数据放着了,以后好找。我有一个表格,里面的一列是文本,我向快速的提取其中的数字。另外如果要对每一列都操作,最好写一个函数。但是这样操作一点都不pathnic。当然最笨的办法是一步一步操作。还有一种就是用apply。这样就可以提取数字了。
原创
发布博客 2023.03.28 ·
1280 阅读 ·
1 点赞 ·
1 评论 ·
3 收藏

做了一个app,返回三国武将的排序网页,记录一下,省得以后找不到

这里在保存数组的过程中,要先JSON转变字符串,在用json解析,这样不会因为mongoose返回的object,第一个的_id字段无法解析。渲染模板的过程中,还需要对武力值排序,这个是从网上搜集到的一个数组,按照某一个键排序的函数。随机返回800多个三国武将里面的5个,然后按照这5个的武力值排序,渲染到list页面。查询之前,使用random,随机生成700以内的数字,这些数字,可以作为find的参数,skip,首先把三国的表引入,在model下面的db里面定义好的,然后,查询武将,
原创
发布博客 2023.03.16 ·
181 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

express框架利用formidable上传图片

这里我直接使用的是art模板,比较喜欢art,ejs模板里面的尖括号,实在有点反人类,感觉尖括号阔的人都晕了,还是art更加简洁。感觉学习就是,黑马的视频还是很不错,反复看,做出来一个项目,然后再把项目里面的细节反复做几遍,弄出自己的东西,整体之后,把各个小的知识点再钻研透了。下面,在body上方,插入一段js,主要两个工作,1.接收上传的图片,2.当图片上传完之后,渲染出图片。index页面直接就是上传文件和填写表单的页面,因此,直接在index的路由里面,不用管,里面就一个大的form,其实不复杂。
原创
发布博客 2023.03.15 ·
911 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

记录一下学习 express过程,实现上传图片功能呢。

使用express+multer实现node中的图片上传功能 – 悠悠之家。xiaoguo 非常好。自己试了一遍,可以。
转载
发布博客 2023.03.15 ·
326 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

记录一下,学习express的小成就

没有参考价值,在此只是为了做个记录。对于nodejs,终于可以自己探索,也算是入门了吧。\views下是网页代码,下面有两个网页文件 inputForm.ejs 和 output.ejs。我的目录是 \model \views,就这两个,\model 下是db.js。终于搞出来了mongoose 和express 前后端链接的部分。这个文档非常的粗糙,以后还会出更条理化的。主要目的是为了使用markdown转换网页。直接输入markdown文件,就可以了。打开 localhost。渲染之后的网页是这样的。
原创
发布博客 2023.03.05 ·
1972 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

nodejs 查询mongodb

使用mongodb库,可以查询mongodb,不喜欢使用mongoose。不知道为啥,使用mongoose还必须新建schema,好多都要新建,没有找到其他方法,还是用mongdb。也可以不使用wherestr,这样返回整个数据库的结果。把find括号里面的wherestr删掉就可以了。也可以指定数组的索引。
原创
发布博客 2023.02.04 ·
329 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

pandas学习之电影评分(利用python进行统计分析)的学习笔记

之前看《利用python进行数据分析》的书,觉得里面电影评分的例子非常好。只是看别人的代码,觉得棒,实际动手自己做,还是眼高手低。印象最深的是电影《阿呆和阿瓜》男性评分很高,女性评分反而比较低。我看过这个电影,所以觉得很有趣,今天试着做了出来。代码很烂,后期再继续学习,直接贴上了。反正自己做的,不要求多好,凑合着自己看吧。尽管如此,还是实现了分析目的,就是比较男性和女性对不同电影的评分差异。解决了这个,后面就是数据合并,透视表,基本的描述统计了。其中特别要说名的是,电影的名字数据表,必须指定“
原创
发布博客 2022.10.30 ·
1506 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

写了一个模拟大炮概率的程序

可以用概率的方法来做,比如和事件,逆事件,这里直接用模拟的方法,假设可以发射10000次, 结果自然就可以知道。问题源于一到概率题目。
原创
发布博客 2022.09.18 ·
196 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

替换文章中的关键词

最近写豆瓣,写一写个人感想,现在的网络环境,就是很多不能说,有些词,不能通过审核,我自己手动把一些关键词替换掉。想到用Python直接写了一个简单脚本。这一段,是一遍一遍筛选词,一遍一遍替换,效率有点低,但是还没想到更好更高效的解决办法。结果就是这样的,不知道能不能通过审核发布,比如,把这些次替换掉。希望有高手帮忙指点。...
原创
发布博客 2022.08.28 ·
199 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Counter完之后,想统计字符串长度大于2的结果

最近遇到一个问题,我用Counter 统计了一下一个corpus,corpus是已经使用jieba分好的。得到一个这样的结果。我向还是统计一下字符长度大于等于2的吧。这时候c是counter返回的结果。c本身就是个字典。所以我想找出字典里key的长度大于2的。用这个 先得到dct_c2,这时候c2是一个长度大于2的字典,但是没有排序。再用sorted,按照value值排序一下。就可以得到一个近似counter的统计。这时候就得到了一个新的字典。不过不能使用.most_common()...
原创
发布博客 2022.06.21 ·
285 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

pandas 怎么样扩展数据,就是把加权数据,转换成个案数据

之前一直用stata,觉得有一个很好用的功能呢,就是expand,具体来说就是,比如有一个交叉表,是这样的。这是风笑天社会研究方法一书里的例子,我想把这个数据变成个案数据,让学生练习,首先,你的按照百分比,计算出每一个格子的绝对数,大概是这么多。如果使用spss统计的话,spss菜单里有一个weight 菜单。可以很轻松的解决这个问题。不需要把加权数据变成个案数据。但是如果使用excel的话,就不行,我向把数据变成这样的,就是变成单独一个人的,通俗的理解就是把权重..
原创
发布博客 2022.05.27 ·
443 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

ppt设置字体,抄过来的。

Sub ChangeTextFont() Set pages = ActivePresentation.Slides.Range pageCount = pages.Count '第一页和最后一页跳过 For i = 2 To pageCount - 1 DoEvents ActiveWindow.View.GotoSlide Index:=i shapeCount = ActiveWindo.
转载
发布博客 2022.05.16 ·
322 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

记录一下实验室打开excel文件的尴尬。

实验室电脑只有原装的python本来打开excel很简单的事情。padnas直接读。结果报错。试了好几遍。都不行。这里记录一下。需要安装 两个,openpyxlxlrdpip install openpyxlpip install xlrd安装完之后,在读,如果还出错。那么 改成csv, 读csv 时。df = pd.read_csv("content.csv", engine='python')读excel时df2 = pd.read_.
原创
发布博客 2022.04.13 ·
645 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

制作一个中国蔬菜产量图

微博上看到的数据import geopandas as gpdchina = gpd.read_file("MLgis/feifuli3_geometry/china_provinces.json")albers_proj = '+proj=aea +lat_1=25 +lat_2=47 +lon_0=105'veg_product = pd.read_json('{"2020\\u5e7431\\u4e2a\\u7701\\u4efd\\u852c\\u83dc\\u4ea7\\u91c
原创
发布博客 2022.04.13 ·
383 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

删除dataframe的第一列

由于保存excel的时候,没有设置index=None。所以再读进来的时候,经常出现Unnamed 列。直接删掉的话,可以使用。df.keys()del df[df.keys()[0]]df.keys()不断重复,直到把没用的列删除干净就可以了。del 可以直接删除,不需要inplace...
原创
发布博客 2022.04.11 ·
3361 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

pandas的reindex功能

pandas的reindex功能挺好用,记录一下。数据只列出一部分吧。#---------------------------------------------------------##---- * reindex命令 * ----##---------------------------------------------------------#import pandas as pdimport matplotlib.pyplot
原创
发布博客 2022.04.05 ·
926 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

百度贴吧 数据分析

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport reimport osfrom collections import Counterimport time# import requests# from scrapy import Selector# import seaborn as snsimport jiebaimport jieba.posseg as psgplt.rc.
原创
发布博客 2022.04.04 ·
836 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏
加载更多