自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 Python3与Highcharts互动展示数据

Highcharts官网的例子都是用JS写的,这里主要学会怎么用官网的样式展示自己的数据,参考github:https://github.com/kyper-data/python-highcharts/tree/developer

2018-01-09 19:58:31 2597 1

原创 Python3 wordcloud使用+csdn引用NoteBook

1、wordcloud,github地址:https://github.com/amueller/word_cloud,直接用pip安装报错,error: Microsoft Visual C++ 14.0 is required. 解决方案:进入https://www.lfd.uci.edu/~gohlke/pythonlibs/中,搜索wordcloud,找wordcloud‑1.3.2‑cp

2018-01-06 18:50:05 283

原创 python学习之词云wordcloud+jieba

1、wordcloud,github地址:https://github.com/amueller/word_cloud,直接用pip安装报错,error: Microsoft Visual C++ 14.0 is required.解决方案:进入https://www.lfd.uci.edu/~gohlke/pythonlibs/中,搜索wordcloud,找wordcloud‑1.3.2‑c

2018-01-05 20:16:48 279

原创 Python Notebook添加多版本内核

背景:在学习Python自然语言处理时,很多github上的代码都是Python2版本,因为之前安装的anconada是3,Python3版本,所以想在notebook上添加Python2内核方法:1、去官网下载Python2.7,不要下载2.5,,2.5后面会下载不了notebook内核(ipykernel),坑了我半天,下载好后,设置环境变量,将Python.exe所在目录和Scr

2018-01-03 17:12:20 533

原创 爬虫豆瓣完整版

from bs4 import BeautifulSoupimport requests, time, pymongofrom multiprocessing import Pooluser_agent = 'Mozilla/5.0 (Windows NT 6.2; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0

2017-11-01 18:14:06 507

原创 Python 爬取豆瓣电影Top250(一)

from bs4 import BeautifulSoupimport requestsimport timeimport pymongo#创建数据库client = pymongo.MongoClient('localhost', 27017) #激活客户端douban = client['douban']url_list = douban['url_list']item

2017-10-28 17:14:48 529

原创 Python爬虫学习_多进程爬取58同城

思路:有多个频道(类别),每个频道下有多个商品链接,每个商品都有详情页。先将频道链接中的多个商品链接爬下来放入数据库中,再从数据库中取出来每一个商品详情页链接,进行详情页中的信息爬取 首先是channel_extact.py,爬取不同频道的链接from bs4 import BeautifulSoupimport requestsstart_url = 'http://bj.58

2017-03-09 20:59:08 1311 1

原创 Python 爬虫学习6数据库使用

import pymongoclient = pymongo.MongoClient('localhost',27017) #激活客户端,在本地创建数据库walden = client['walden'] #左侧是Python中的对象,右边括号中是数据库中的名称sheet_tab = walden['sheet_tab'] #创建了表单名称# path =

2017-03-08 19:35:42 244

原创 Python爬虫学习5

爬取梅梅图片保存至本地,连续页中有页

2017-03-08 08:30:32 411 1

原创 Python 爬虫学习4

任务:爬取58页面中的正常商品,每个商品详情页中的类目、标题、发帖时间、价格、成色、区域、浏览量信息注意:多开反爬取、看是个人还是商家(url中的0和1)详情页中的标题待改进,'http://bj.58.com/pingbandiannao/{}/pn2,这是第二页的,第一页的爬不了,浏览量还没成功 from bs4 import BeautifulSoupimport re

2017-03-06 19:31:23 260

原创 Python 爬虫学习3

任务:异步数据动态数据:Network-XHR-Response(链接、图片链接),在Request中寻找URL异步加载网站:新浪微博评论、豆瓣电影难点:要知道每一次加载的元素个数(这个网站是12个) from bs4 import BeautifulSoupimport requests, timeurl = 'https://knewone.com/discover?p

2017-03-05 14:22:44 335 1

原创 Python 爬虫学习2爬取租房网站信息

任务:爬取租房网站信息,300个房源信息(详情页中的价格、位置、户主名字、性别等)注意:超链接的获取、性别获取from bs4 import BeautifulSoupimport requests, timepage_link = [] # <- 每个详情页的链接都存在这里,解析详情的时候就遍历这个列表然后访问就好啦~def get_page_link(page_number):#

2017-03-05 14:02:48 665

原创 Python 爬虫学习1

新手学习Python,了解网页元素,难点:元素定位

2017-03-04 21:27:53 262

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除