- 博客(7)
- 收藏
- 关注
转载 抓取新浪微博好友昵称和性别
这次抓取新浪微博好友数据的方法只是个人实验之作,不具有通用性,只是为后面学习模拟登陆抓取微博数据打一个基础。 import requests import re import pandas as pd url1 = "http://weibo.com/******************page=" #这就是为什么不具有通用性的原因,个人玩玩还可以 url2 = "#PL
2017-05-08 16:38:45
2074
转载 词云图
开始制作词云图: 工具:TAGUL 这是一款在线词云图制作工具,非常方便。下面说一下制作过程中需要注意的问题 1)点击word页面,点击import words,添加要制作的文本,文本数据包括关键词和size(频率),size越大,则生成的字就会越大。Add是人为追加关键词和size。 2)shapes,选择形状。这里是一些模板图形,左边是分类主题。你如果想添加图片作为模板的话,点击左上角的
2017-05-05 22:07:34
2929
转载 python爬取百度贴吧的帖子
一、URL格式的确定: 我们观察一下百度贴吧的任意一个帖子:https://tieba.baidu.com/p/3138733512?see_lz=1&pn=1,分析一下这个地址: 1)http:// 代表资源传输使用http协议 2)tieba.baidu.com是百度的二级域名,指向百度贴吧的服务器 3)/p/3138733512是服务器摸个资源,即这个帖子的地址定位符 4)see_
2017-05-03 15:46:21
745
转载 python爬取网页(设置headers2)
今天用python爬取糗事百科的笑料时,发现用前面学的方法竟然不好用了......... 就是这样: def getHtml(url): page = urllib.urlopen(url) html = page.read() return html html = getHtml("http://www.qiushibaike.com/hot/")
2017-05-02 21:47:41
1057
转载 微信好友头像拼接图
今天在网上看到一篇文章,是讲解怎么用python制作微信好友拼接图,一起来学习一下。 import itchat import math import PIL.Image as Image import os itchat.auto_login(True) #使用命令行显示二维码登录,参数设为True,则每次运行时只要扫码一次就行了,不用重复扫码 friends = itc
2017-05-02 13:31:29
3198
转载 python爬取网页内容
上次学习了用python爬取网页上的图片,这次来学习一下怎么用python来获取网页上我们感兴趣的内容。 目标:爬取简书首页的文章标题,链接,阅读量,评论数,收藏数。 步骤:和上节相同,关键在于正则表达式的选取。 import re import urllib def getHtml(url): page = urllib.urlopen(url) html =
2017-05-01 20:19:12
22218
转载 python爬取网上图片
在网上看到一个使用python爬虫的小程序,自己学习了一下,下面来看一下这个程序实现的过程: 目的:抓取网页上的图片。 步骤:1、拿到网页的源码 2、用正则表达式匹配出网页上图片的URL 3、把图片保存到电脑中 一、获取网页源码的程序为: import urllib #urllib是python进行网络访问的基础模块 #比如获取贴吧
2017-05-01 13:23:59
879
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人