Ta来自江湖
码龄7年
关注
提问 私信
  • 博客:114,872
    114,872
    总访问量
  • 31
    原创
  • 2,248,890
    排名
  • 24
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2018-03-27
博客简介:

codingforhaifeng的博客

博客描述:
Do what makes you great
查看详细资料
个人成就
  • 获得70次点赞
  • 内容获得19次评论
  • 获得197次收藏
创作历程
  • 4篇
    2019年
  • 32篇
    2018年
成就勋章
TA的专栏
  • python
    16篇
  • HTTP
    1篇
  • Web Crawler
    8篇
  • HTML
    2篇
  • Linux
    1篇
  • Software
    1篇
  • MySQL
    2篇
  • Network
    1篇
  • Machine learning
    4篇
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

UC头条(大鱼)文章评论内容抓取

下面以某一篇文章为例,分析UC头条(大鱼)文章评论内容抓取:首先我们点击进入上面的这一篇文章,然后拉到评论内容区,通过抓包分析发现其评论接口为:https://m.uczzd.cn/iflow/api/v2/cmt/article/13191933289453545149/comments/byhot?uc_param_str=dnnivebichfrmintnwcpgieiwidsu...
原创
发布博客 2019.03.28 ·
2551 阅读 ·
2 点赞 ·
1 评论 ·
2 收藏

百度新闻评论内容抓取

通过抓包分析发现,百家号手机app端文章评论内容接口为:https://ext.baidu.com/api/comment/v1/comment/getlist?appid=101&sid=1008524_2-1010050_1-1007549_23033-1007550_23035&cuid=01B5EAF73E8A83BB842BE04E4FB6C656|23200201047...
原创
发布博客 2019.03.26 ·
2098 阅读 ·
4 点赞 ·
4 评论 ·
1 收藏

今日头条文章评论内容爬取

因为业务要求,需要爬取今日头条文章相关评论内容。经过分析,今日头条评论接口有很多个(主要包括PC端和app端)。经过分析发现app端较pc端更好爬取,主要是从大量爬取被封IP的概率考虑。下面主要以http://is-hl.snssdk.com/article/v4/tab_comments/这个链接进行分析,其他几个区别不大,可以迁移。一级评论内容URL:http://is-hl.sn...
原创
发布博客 2019.03.25 ·
9092 阅读 ·
4 点赞 ·
5 评论 ·
12 收藏

Python爬虫定时任务

方法一: time模块中的sleep()方法Python time sleep() 函数推迟调用线程的运行,可通过参数secs指秒数,表示进程挂起的时间。语法:time.sleep(t)实例:结果:方法二:datetime模块中的timedelta()方法实例:minutes可以换成hours\days结果:方法三:apscheduler模块中的Ba...
原创
发布博客 2019.01.07 ·
1753 阅读 ·
1 点赞 ·
0 评论 ·
15 收藏

Python基本语法之:字符串和字典介绍

字符串(Strings)Python语言真正出色的地方之一是字符串的操作。本节将介绍Python的一些内置字符串方法和格式化操作。1、字符串语法使用单引号或双引号定义Python中的字符串。它们在功能上是等价的。如果字符串里面有字符串,若字符串里面的字符串为单引号,则外面的字符串使用双引号,反之,则使用单引号。如何解决单引号里面有单引号的问题呢?通过反斜杠‘\’...
原创
发布博客 2018.12.01 ·
1236 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

numpy.random.rand()、numpy.random.randn()及numpy.random.randint()的区别

1、numpy.random.rand()    rand函数根据给定维度生成[0,1)之间的数据,包含0,不包含1   返回值为指定维度的array2、numpy.random.randn()    randn函数返回一个或一组样本,具有标准正态分布。   标准正态分布即均值为0,标准差为1的正态分布,又名高斯分布   返回指定维度的array 3...
原创
发布博客 2018.11.13 ·
774 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Matplotlib数据可视化画图

1. 基础绘图2. 图表的基本元素图名、x轴标签、y轴标签、图例、x轴边界、y轴边界、x刻度、y刻度、x刻度标签、y刻度标签3. 图表样式linestyle、color、marker、style (linestyle、marker、color)、alpha、colormap、gridcolor参考:https://matplotlib.org/gallery/c...
原创
发布博客 2018.11.12 ·
831 阅读 ·
1 点赞 ·
0 评论 ·
10 收藏

Numpy基础:数组和矢量计算

参考链接https://www.jianshu.com/p/a380222a3292
原创
发布博客 2018.11.08 ·
216 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Numpy基础:数组和矢量计算

参考链接https://www.jianshu.com/p/a380222a3292
原创
发布博客 2018.11.08 ·
216 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Python数据分析之Pandas

Python中的pandas模块进行数据分析:1、数据结构简介:DataFrame和Series2、数据索引index3、利用pandas查询数据4、利用pandas的DataFrames进行统计分析5、利用pandas实现SQL操作6、利用pandas进行缺失值的处理7、利用pandas实现Excel的数据透视表功能8、多层索引的使用1. 数据结构简介       在p...
原创
发布博客 2018.11.05 ·
629 阅读 ·
1 点赞 ·
0 评论 ·
5 收藏

numpy中matrix*array、matrix*matrix和arrary*array的区别

1、matrix*array表示的是矩阵乘2、matrix*matrix表示的是矩阵乘3、arrary*array表示的是对应的元素相乘
原创
发布博客 2018.10.11 ·
241 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

机器学习——决策树

决策树——https://blog.csdn.net/jiaoyangwm/article/details/79525237
原创
发布博客 2018.09.27 ·
159 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Python isalpha()方法 以及 itertools.product()方法

 isalpha()方法:Python isalpha() 方法检测字符串是否只由字母组成。isalpha()方法语法:str.isalpha()itertools.product()方法:https://www.cnblogs.com/anpengapple/p/5051013.html...
原创
发布博客 2018.09.25 ·
298 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

python切片,反转字符串

”左开右毕,从右向左读“或者可以这样:先切片再反转 
原创
发布博客 2018.09.04 ·
1116 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

python map()函数和lambda表达式

python map(fun,[arg]+)函数最少有两个参数,第一参数为一个函数名,第二个参数是对应的这个函数的参数(一般为一个或多个list)。>>>def fun(x):... return x+1...>>>list(map(fun,[1,2,3]))>>>[2,3,4] 多参数例子:>>&...
转载
发布博客 2018.09.03 ·
375 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Python 集合set

可变集合set集合set是Python中一种基本数据类型,它分为可变集合(set)和不可变集合(frozenset)两种。类似于其他语言,集合是一个无序不重复元素集,包括创建集合set、向集合中添加元素、删除集合中的元素、求集合的交集、并集、差集等操作。下面就让我们一一来学习集合的这些知识吧。1、set创建集合set集合类需要的参数必须是迭代器类型的,如:序列、字典等,然后转换成无序不...
转载
发布博客 2018.08.29 ·
216 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

python enumerate用法总结

转自https://blog.csdn.net/churximi/article/details/51648388enumerate()说明enumerate()是python的内置函数 enumerate在字典上是枚举、列举的意思 对于一个可迭代的(iterable)/可遍历的对象(如列表、字符串),enumerate将其组成一个索引序列,利用它可以同时获得索引和值 enumera...
转载
发布博客 2018.08.29 ·
208 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

python之collections之counter

 转自https://www.cnblogs.com/baotouzhangce/p/6179911.html一、定义Counter(计数器)是对字典的补充,用于追踪值的出现次数。Counter是一个继承了字典的类(Counter(dict))二、相关方法继承了字典的类,有关字典的相关方法也一并继承过来。比如items()方法 def most...
转载
发布博客 2018.08.28 ·
929 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

初识机器学习——吴恩达《Machine Learning》学习笔记(二)

矩阵(matrices)和向量(vectors)矩阵(matrix)    定义:由数字组成的矩形阵列(Rectangular array of numbers)。矩阵其实是二维数组的另一种说法。    矩阵的维数(Dimension of matrix):矩阵的行数X矩阵的列数    矩阵的项(entries of matrix):如果A是个矩阵,Aij表示的是第i行第j列所对应的元素向量(ve...
原创
发布博客 2018.07.05 ·
458 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

初识机器学习——吴恩达《Machine Learning》学习笔记(一)

Machine Learning的定义       AI发展出来的一个领域,计算机开发的一项新功能        定义一:        在没有明确设置的情况下,使计算机具有学习能力的研究领域。                          ——Samuel(1959)        定义二:        一个适当的学习问题定义如下:计算机程序从经验E中学习解决某一任务T进行某一性能度量P,...
原创
发布博客 2018.07.01 ·
3485 阅读 ·
1 点赞 ·
0 评论 ·
14 收藏
加载更多