自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

转载 一个完整的大作业

1.选一个自己感兴趣的主题。在爬取时遇到了最大的困难是有些大型网页内容不让爬取,以及大型网页的内容的类不一定会一样,难以批量爬取。现在爬取的网页信息为http://news.17173.com/2.网络上爬取相关的数据。from datetime import datetimeimport requestsfrom bs4 import Beauti...

2017-11-01 00:25:00 185

转载 数据结构化与保存

1.结构化:单条新闻的详情字典:news一个列表页所有单条新闻汇总列表:newsls.append(news)所有列表页的所有新闻汇总列表:newstotal.extend(newsls)2.转换成pandas的数据结构DataFrame3.从DataFrame保存到excel4.从DataFrame保存到sqlite3数据库import requ...

2017-10-19 20:54:00 91

转载 爬取所有校园新闻

1.获取单条新闻的#标题#链接#时间#来源#内容 #点击次数,并包装成一个函数。from datetime import datetimeimport requestsfrom bs4 import BeautifulSoupimport rehtml='http://news.gzcc.cn/html/xiaoyuanxinwen/'res = reques...

2017-10-12 13:21:00 100

转载 用requests库和BeautifulSoup4库爬取新闻列表

用requests库和BeautifulSoup4库,爬取校园新闻列表的时间、标题、链接、来源、详细内容。将其中的时间str转换成datetime类型。将取得详细内容的代码包装成函数。from datetime import datetimeimport requestsfrom bs4 import BeautifulSouphtml='http://n...

2017-09-29 00:20:00 135

转载 中文词频统计及词云制作

1.中软国际华南区技术总监曾老师还会来上两次课,同学们希望曾老师讲些什么内容?(认真想一想回答)大数据会用到哪些技术?2.中文分词下载一中文长篇小说,并转换成UTF-8编码。使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。**排除一些无意义词、合并同一词。import jiebabook = "wlh.txt"txt = open...

2017-09-25 17:56:00 107

转载 组合数据类型练习,英文词频统计实例

列表实例:由字符串创建一个作业评分列表,做增删改查询统计遍历操作。例如,查询第一个3分的下标,统计1分的同学有多少个,3分的同学有多少个等。s=list('132132123131')print('作业评分列表',s)s.append('3')print('增加',s)s.pop()print('删除最后一个',s)s[3]='3'print('将...

2017-09-21 15:53:00 74

转载 字符串操作练习:星座、凯撒密码、99乘法表、词频统计预处理

实例:输出12个星座符号,以反斜线分隔。for i in range(9800,9812): print(chr(i),end='\\')实例:恺撒密码的编码plaincode=input('请输入明文:')print('密文:',end='')x=ord('a')y=ord('z')for i in plaincode: ...

2017-09-18 17:08:00 95

转载 条件、循环、函数定义、字符串操作练习

用循环画五角星import turtleturtle.fillcolor('red')turtle.begin_fill()while True: turtle.forward(200) turtle.left(144) if abs(turtle.pos())<1: breakturtle.end_fil...

2017-09-14 14:00:00 79

转载 Python输入输出练习,运算练习,turtle初步练习

1.Hello World!print('hello world')2.简单交互(交互式,文件式)name = input("请输入你的名字")print("你好!%s" %name)3.用户输入两个数字,计算并输出两个数字之和(尝试用一行代码实现)。print(float(input())+float(input()))4.用户输入三...

2017-09-07 14:28:00 130

转载 了解大数据

对于一个刚起步几年的手机厂商,小米手机取得了一个不错的成绩,今后可能很难有厂商能打破这一纪录了。我们可以百度指数大数据来看看他这这几年的发展。在国内从整体趋势来看小米相比前几年是有所下降的,但也趋于平稳状态。在国内的热度还是比iPhone高,毕竟国内和印度是小米的两大市场。小米在新闻话题方面是远远不如iPhone,但相比前几年有所提高,与自身实力发展分不开。...

2017-09-04 17:28:00 73

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除