pythonOfMine-CSDN博客

转载抓取新浪微博好友昵称和性别

这次抓取新浪微博好友数据的方法只是个人实验之作，不具有通用性，只是为后面学习模拟登陆抓取微博数据打一个基础。 import requests import re import pandas as pd url1 = "http://weibo.com/******************page=" #这就是为什么不具有通用性的原因，个人玩玩还可以 url2 = "#PL

2017-05-08 16:38:45 2074

转载词云图

开始制作词云图：工具：TAGUL 这是一款在线词云图制作工具，非常方便。下面说一下制作过程中需要注意的问题 1）点击word页面，点击import words，添加要制作的文本，文本数据包括关键词和size(频率)，size越大，则生成的字就会越大。Add是人为追加关键词和size。 2）shapes,选择形状。这里是一些模板图形，左边是分类主题。你如果想添加图片作为模板的话，点击左上角的

2017-05-05 22:07:34 2929

转载 python爬取百度贴吧的帖子

一、URL格式的确定：我们观察一下百度贴吧的任意一个帖子：https://tieba.baidu.com/p/3138733512?see_lz=1&pn=1，分析一下这个地址： 1）http:// 代表资源传输使用http协议 2）tieba.baidu.com是百度的二级域名，指向百度贴吧的服务器 3）/p/3138733512是服务器摸个资源，即这个帖子的地址定位符 4）see_

2017-05-03 15:46:21 745

转载 python爬取网页（设置headers2）

今天用python爬取糗事百科的笑料时，发现用前面学的方法竟然不好用了......... 就是这样： def getHtml(url): page = urllib.urlopen(url) html = page.read() return html html = getHtml("http://www.qiushibaike.com/hot/")

2017-05-02 21:47:41 1057

转载微信好友头像拼接图

今天在网上看到一篇文章，是讲解怎么用python制作微信好友拼接图，一起来学习一下。 import itchat import math import PIL.Image as Image import os itchat.auto_login(True) #使用命令行显示二维码登录，参数设为True，则每次运行时只要扫码一次就行了，不用重复扫码 friends = itc

2017-05-02 13:31:29 3198

转载 python爬取网页内容

上次学习了用python爬取网页上的图片，这次来学习一下怎么用python来获取网页上我们感兴趣的内容。目标：爬取简书首页的文章标题，链接，阅读量，评论数，收藏数。步骤：和上节相同，关键在于正则表达式的选取。 import re import urllib def getHtml(url): page = urllib.urlopen(url) html =

2017-05-01 20:19:12 22218

转载 python爬取网上图片

在网上看到一个使用python爬虫的小程序，自己学习了一下，下面来看一下这个程序实现的过程：目的：抓取网页上的图片。步骤：1、拿到网页的源码 2、用正则表达式匹配出网页上图片的URL 3、把图片保存到电脑中一、获取网页源码的程序为： import urllib #urllib是python进行网络访问的基础模块 #比如获取贴吧

2017-05-01 13:23:59 879

soophoop的博客