快捷键 Ctrl+H
【正则表达式】使用笔记Ⅰ
将如下格式转换成需要的内容及格式。
PassengerId,乘客的id号,这个我觉得对生存率没影响,因为一个人的id号不会影响我是否生存下来吧,这列可以忽略
Survived,生存的标号,上面图的数值1表示这个人很幸运,生存了下来,数值0,则表示遗憾,
Pclass,船舱等级,就是我们坐船有等级之分,像高铁,飞机都有,这个属性会对生产率有影响,因为一般有钱人,权贵才会住头等舱的,保留,
Name,名字,这个不影响生存率,我觉得可以不用这列数据,可以忽略
Sex,性别,这个因为全球都说ladyfirst,女士优先,所有这列保留,
Age,年龄,因为优先保护老幼,这个保留,
SibSp,兄弟姐妹,就是有些人和兄弟姐妹一起上船的,这个会有影响,因为有可能因为救他们而导致自己没有上救生船船,保留这列
Parch,父母和小孩,就是有些人会带着父母小孩上船的,这个也可能因为要救父母小孩耽误上救生船,保留
Ticket,票的编号,这个没有影响吧,
Fare,费用,这个和Pclass有相同的道理,有钱人和权贵比较有势力和影响力,这列保留
Cabin,舱号,住的舱号没有影响,忽略,
Embarked,上船的地方,这列可能有影响,我认为登陆地点不同,可能显示人的地位之类的不一样,我们先保留这列,
^(.+?),(.+?),.*$
"$1": "$2",
转换结果:
"PassengerId": "乘客的id号",
"Survived": "生存的标号",
"Pclass": "船舱等级",
"Name": "名字",
"Sex": "性别",
"Age": "年龄",
"SibSp": "兄弟姐妹",
"Parch": "父母和小孩",
"Ticket": "票的编号",
"Fare": "费用",
"Cabin": "舱号",
"Embarked": "上船的地方",
【正则表达式】使用笔记Ⅱ
去掉空行:^\s\n