python学习、数据收集、数据分析

本文用于存放一些看到的好材料、文章的链接,不断更新。

1.http://www.cnblogs.com/ming5536/archive/2012/11/21/2781062.html

如何成为一个牛逼的数据分析师?

        There are two classes of skills that are needed to be a successful data analyst: both soft and technical skills are needed.  The core work flow for a data analyst is several fold.  Once a problem has been defined, and a hypothesis is to be tested, the data must be drawn out and then analyzed.  The resulting analysis is written up and communicated to the interested stake holder.  In order to do this there are several hard and soft skills that are required.

Technical Skills:
  1. A basic knowledge of statistics to a rigorous understanding of Machine Learning.  Most consumers of analysis will not look at more than descriptive analysis (means, medians, significance).  
  2. Computer skills that are useful are a Querying Language (SQL,Hive,Pig), a scripting Language (Python,Matlab), a Statistical Language (R, SAS, SPSS), and a Spreadsheet (Excel). 
Soft Skills
  1. Defining the problem and narrowing the analysis down often requires a lot of soft skills.  Balancing the demands on your time to reduce infinite what-if scenarios and understanding the requestors needs requires good communication and understanding of the business needs.  Avoid agreeing to delivering too much information that will be not useful to solving the core issues. 
  2. Knowing the audience. There is a different presentation required for a PM or a CEO.  As a Data Analyst, you will be often required to answer to both.  A typical PM will want a more collaborative interaction with more scenarios spelled out and a less polished presentation.  A CEO will often be looking for a specific recommendation in a small polished presentation. 
  3. Delivery.  Having a wonderfully accurate predictive model, that has been backtested to deliver a low RMSE, or an AB test that can increase conversion 15% without reducing sales price are all great results.  However, without a great presentation key findings may be left out of product road maps and in the backlog for months or years.
     看完后,总结一下作者的意思,无非两层:一是要有干货,二是要有思维。干货包括对机器学习的理解,通一门查询语言(SQL,Hive或者Pig),通一门脚本语言(python或者Matlab),通一门统计语言(R,SAS或者SPSS),通一款软件(Excel)。思维包括,  明确问题的核心,理解客户心声。

很好的一篇文章,程序员的工作与收入,值得思考。
http://blog.csdn.net/justjavac/article/details/8686805 

三、python学习
很喜欢下面几句话,代表不同境界:
当你觉得它很美的时候,你入门了。
当你觉得它很好用的时候,你掌握它了。
当你发现原来还有很多不知道的东西时,你是高手了。
当你知道这个问题没有答案时,你已经合格了。 
3-1:字符串及其编码
1.http://www.cnblogs.com/pylemon/archive/2011/05/18/2050179.html    Python中strip lstrip rstrip使用方法 (去除指定字符)
2.http://www.rmi.net/~lutz/strings30.html        python3.X中字符串编码:unicode 和 bytes
3.http://woodpecker.org.cn/diveintopython3/strings.html      string和bytes,dive into python字符串章。 bytes对象有一个decode()方法,它使用某种字符编码作为参数,然后依照这种编码方式将bytes对象转换为字符串,对应地,字符串有一个encode()方法,它也使用某种字符编码作为参数,然后依照它将串转换为bytes对象。
3-2:正则表达式
1.http://www.cnblogs.com/coderzh/archive/2008/05/06/1185755.html    正则表达式(爬虫用到,匹配具体内容,import re)
3-3:Python面试题汇总  
http://www.reddit.com/r/Python/comments/1knw7z/python_interview_questions/

3-4:字符编码的问题
python2.x版本中有很多编码问题,尤其是在写爬虫搜集数据时经常很囧,有个系统的了解能让我们编写代码时心中有谱:
http://www.cnblogs.com/huxi/archive/2010/12/05/1897271.html 

3-4:如何才能算精通Python???  http://www.zhihu.com/question/19794855


四、社会网络分析
1. http://www.kazemjahanbakhsh.com/codes/cmty.html   使用python的networkx和igraph包实现的GN社群检测算法的程序。
2. http://www.kazemjahanbakhsh.com/              大牛,社会网络分析。 Victoria大学博士
3. http://blog.sina.com.cn/s/blog_622245920100vscb.html   Igraph/ networkx学习笔记—数据结构(how)
4. http://www.zhizhihu.com/html/y2012/3912.html       iGraph库中Community Detection方法比较
5.http://blog.csdn.net/chaishen10000/article/details/5869445   六个主要的社会网络分析软件。

五、机器学习+推荐系统
1.http://blog.sina.com.cn/s/blog_7ad79389010184w3.html    基于用户的协同过滤介绍
2.http://webdam.inria.fr/Jorge/html/wdmch19.html              英文版 推荐系统 教程   2013/4/10
3.http://jmlr.csail.mit.edu/papers/v12/pedregosa11a.html    推荐一个机器学习框架——python实现
4.http://w800927.iteye.com/blog/1329937                          数据挖掘易犯错误———像训练集和测试集的划分。“喝前摇一摇”
5.http://blog.sina.com.cn/s/blog_6b1c9ed50101akb6.html        经典的机器学习包。
6. http://www.lfd.uci.edu/~gohlke/pythonlibs/                    Unofficial Windows Binaries for Python Extension Packages很多非官方的包,PYhton3.x
[Python3.2  win32  如何安装scikitlearn包。目前官方的还不行,在上述网上搜集的unofficial版本,希望能帮助大家学http://download.csdn.net/detail/database_zbye/5258021]
scikit-learn包使用主要参考官方reference。这有一个简单的例子http://www.shahuwang.com/?p=1018

六、数据挖掘
1. http://blog.csdn.net/aladdina/article/details/4141177      数据挖掘的10大经典算法!
2. http://www.douban.com/group/topic/35168224/      漫谈数据挖掘从入门到进阶【详细介绍机器学习学习路线】

七、C/C++
1.http://www.cnblogs.com/zjfdbz/archive/2011/12/17/2291233.html     EOF 文件结束 end of file
  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Python微博数据分析是利用Python编程语言进行微博数据收集、清洗、处理和分析的过程。Python是一种非常流行的数据科学编程语言,它具有简单、易学、强大的特性,非常适合用于处理大量的微博数据。 在微博数据分析过程中,首先需要使用Python编写代码来实现微博数据收集。可以通过微博的API接口或者其他方式获取到微博的相关数据,如用户信息、微博内容、转发数、评论数等。 接下来需要进行数据的清洗和处理,这些数据清洗可以通过Python数据分析库进行实现。例如,可以使用Pandas库来处理数据,进行缺失值处理、去重、数据格式转换等操作。同时,还可以使用Python的正则表达式模块对微博的文本内容进行处理,如提取关键词、分词等。 完成数据的清洗和处理后,接下来可以使用Python的可视化库对数据进行分析和展示。例如,可以使用Matplotlib库来创建图表、柱状图、饼图等,直观地展示微博数据的特征,如用户活跃度、热门话题等。此外,还可以使用Seaborn库来创建更加美观的可视化图表。 最后,可以使用Python的机器学习库对微博数据进行分析。可以使用Scikit-learn库实现机器学习算法,如聚类、分类、预测等。这些算法可以帮助我们对微博数据进行更深入的挖掘和分析,如对用户进行分群、预测微博的热度等。 总的来说,Python微博数据分析是利用Python编程语言对微博数据进行收集、清洗、处理和分析的过程。通过Python丰富的数据科学库和机器学习库,我们可以对微博数据进行深入挖掘和分析,从中获取有价值的信息。 ### 回答2: Python微博数据分析是指利用Python编程语言的工具和技术对微博平台上的数据进行收集、清洗、分析和可视化的过程。通过微博数据分析,可以帮助我们了解用户的行为、兴趣和态度,以及识别用户群体和趋势。 对于微博数据收集,我们可以使用Python的第三方库或API来获取微博的内容、用户信息和评论等数据。获取到的数据可以包括微博的文本内容、发布时间、转发和评论数等信息。 在数据清洗方面,我们可以利用Python的文本处理和正则表达式库来清理和过滤微博文本中的无关信息,如特殊字符、表情符号和链接等。清洗后的数据更具有可用性和准确性。 在分析和挖掘微博数据时,可以利用Python数据处理和分析库,如Pandas和NumPy,进行数据的统计、聚类和关联分析等。通过这些分析,可以获得微博用户的兴趣分类、话题热度和用户行为等信息。 最后,通过Python数据可视化库,如Matplotlib和Seaborn,可以将分析结果以图表和图形的形式展示出来,让数据更加直观和易于理解。这些可视化工具可以生成折线图、柱状图、热力图等,帮助我们更好地理解微博数据的趋势和关联关系。 总而言之,Python微博数据分析是一种利用Python编程语言的工具和技术对微博数据进行收集、清洗、分析和可视化的过程。它可以帮助我们了解用户的行为和兴趣,发现用户群体和趋势,并通过数据分析结果进行决策和策略的制定。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值