自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

转载 抓取新浪微博好友昵称和性别

这次抓取新浪微博好友数据的方法只是个人实验之作,不具有通用性,只是为后面学习模拟登陆抓取微博数据打一个基础。 import requests import re import pandas as pd url1 = "http://weibo.com/******************page=" #这就是为什么不具有通用性的原因,个人玩玩还可以 url2 = "#PL

2017-05-08 16:38:45 2074

转载 词云图

开始制作词云图: 工具:TAGUL 这是一款在线词云图制作工具,非常方便。下面说一下制作过程中需要注意的问题 1)点击word页面,点击import words,添加要制作的文本,文本数据包括关键词和size(频率),size越大,则生成的字就会越大。Add是人为追加关键词和size。 2)shapes,选择形状。这里是一些模板图形,左边是分类主题。你如果想添加图片作为模板的话,点击左上角的

2017-05-05 22:07:34 2929

转载 python爬取百度贴吧的帖子

一、URL格式的确定: 我们观察一下百度贴吧的任意一个帖子:https://tieba.baidu.com/p/3138733512?see_lz=1&pn=1,分析一下这个地址: 1)http:// 代表资源传输使用http协议 2)tieba.baidu.com是百度的二级域名,指向百度贴吧的服务器 3)/p/3138733512是服务器摸个资源,即这个帖子的地址定位符 4)see_

2017-05-03 15:46:21 745

转载 python爬取网页(设置headers2)

今天用python爬取糗事百科的笑料时,发现用前面学的方法竟然不好用了......... 就是这样: def getHtml(url):     page = urllib.urlopen(url)     html = page.read()     return html html = getHtml("http://www.qiushibaike.com/hot/")

2017-05-02 21:47:41 1057

转载 微信好友头像拼接图

今天在网上看到一篇文章,是讲解怎么用python制作微信好友拼接图,一起来学习一下。 import itchat import math import PIL.Image as Image import os itchat.auto_login(True) #使用命令行显示二维码登录,参数设为True,则每次运行时只要扫码一次就行了,不用重复扫码 friends = itc

2017-05-02 13:31:29 3198

转载 python爬取网页内容

上次学习了用python爬取网页上的图片,这次来学习一下怎么用python来获取网页上我们感兴趣的内容。 目标:爬取简书首页的文章标题,链接,阅读量,评论数,收藏数。 步骤:和上节相同,关键在于正则表达式的选取。 import re import urllib def getHtml(url):     page = urllib.urlopen(url)     html =

2017-05-01 20:19:12 22218

转载 python爬取网上图片

在网上看到一个使用python爬虫的小程序,自己学习了一下,下面来看一下这个程序实现的过程: 目的:抓取网页上的图片。 步骤:1、拿到网页的源码             2、用正则表达式匹配出网页上图片的URL             3、把图片保存到电脑中 一、获取网页源码的程序为: import urllib #urllib是python进行网络访问的基础模块 #比如获取贴吧

2017-05-01 13:23:59 879

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除