我如何使用Python在我的利基网站上发表不错的文章

九个月前,在得知我的妻子怀了第三胎之后,我决定进行一些附带项目,以赚取额外的收入。 由于我知道我的正常收入不足以在不久的将来养家糊口 ,因此我不得不寻找其他收入来源。

那时,我决定建立一个利基网站来进行会员营销

在启动这个专门从事榨汁的网站项目之后,我在9个月内只发布了约30篇文章。

此外,我对这些文章并不真正满意,因为它们与网络上的其他类似文章并没有太大不同。

因此,我知道我必须有所作为,并开始撰写高质量的文章,这些文章具有独特的内容,很容易在网络上推广。

大约是在我读文章“ 我分析了Stack Overflow上提到的每本书 ”的同时 这里有最流行的 , ”通过 弗拉德·韦策尔 freeCodeCamp

突然打了我…

我决定在榨汁时采用同样的原理。

为了获得有意义的结果,我不得不收集尽可能多的榨汁配方。

但是,这是一个大问题。

所有食谱都在网络上散布并以不同的格式编写。 手动收集食谱非常繁琐,而且至少需要两个月的时间。

值得庆幸的是,我偶然发现了yummly ,它已经从网上收集了数千种这些食谱。

当我发现yummly为食谱提供API服务时,情况变得更好了。

根据我的经验,利用这个API完成我的项目是我的全部工作。

我立即注册了一个为期两周的免费试用版,并开始将API与PythonSQLite结合使用

但是,我注意到不可能将榨汁食谱与其他也包含“果汁”的食谱完全区分开。 但是我意识到我可以使用“ 冰沙食谱 ”来做到这一点,因此我决定使用“冰沙食谱”进行分析。

为此,我编写了两个Python脚本。 前者获取配方并将数据写入SQLite数据库,而后者处理分析。

我利用这个 Python模块从yummly获取食谱。

这是数据库的ER图:

从yummly.com上花了大约五个小时才收集了10,765个冰沙食谱。 将这些配方插入数据库后,处理数据要容易得多。

为了进行分析,我的目的是找到最优选的成分组合。 但是,问题是食谱中的某些成分写得不同。

例如,香蕉成分在某些食谱中被称为“香蕉”,而在另一些食谱中被称为“香蕉”。

为了克服这个问题,我用lemmatizerNLTK模块的所有成分转化成其单数形式。

我遇到的另一个问题是名词术语,例如“冷冻草莓”。 为了便于分析,我只在该子句中关注“草莓”。

为了解决这个问题,我使用了来自nltk的标记器,并且仅接受了“ NN”和“ NNS”标记,它们分别对应于单数和复数名词。

尽管我使用了所有这些方法来精炼数据,但对于某些特定的成分,我不得不使用硬编码的异常,这些异常是我的方法的逻辑无法捕获的。

一旦我最终对食谱中的所有成分进行了排序,就更容易找到它们的组合。

运行脚本并获得结果之后,我终于设法在我的利基网站上发表了我的第一篇(相信) 文章

这是本文的可视化效果之一。

查看更多有关我分析的10765冰沙食谱的信息。 这是结果。

结论

如果您想知道这一点...

我是嵌入式软件工程师。

我在嵌入式系统以及大多数C 编程语言方面经验丰富。

如果您没有注意到,我是Python的新手。 实际上,我尝试学习Python 才六个月

您如何看待结果?

在Python编程(数据科学?)和内容营销方面,我是否走上了正确的轨道?

感谢您的反馈。

From: https://hackernoon.com/how-i-used-python-to-publish-a-nice-article-on-my-niche-website-47452a7e73c6

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值